25.09.2025 –, Актовый зал (4 этаж)
Для интенсификации поиска растений-гипераккумуляторов тяжелых металлов и металлоидов (ТММ) по материалам оригинальных рецензируемых научных статей мы создаем базу данных, интегрирующую информацию о филогении, экологии, биогеографии, морфологических характеристиках (а также и из глобальных баз данных “World Checklist of Vascular Plants”; “LEDA”, “TRY”, “BiolFlor” и др.), содержании химических элементов в покрытосеменных растениях, а также почвах, на которых они произрастают.
В базе данных «Scopus» по запросам “heavy metals and hyperaccumulator” и “plant and heavy metals” в названии, аннотации и ключевых словах найдено 1,6 и 16,8 тыс. результатов соответственно. С помощью функционала платформы «Scopus», скриптов, написанных на языке «Python» и исполненных в среде разработки «Spyder» (дистрибутив «Anaconda»), ручного скачивания в Google Scholar получены pdf-файлы соответствующих работ. Для парсинга материала оригинальных статей использован язык программирования “Python”, в сложных случаях – нейросетевые онлайн-ресурсы. Из pdf-файлов весь текст извлечен с помощью библиотек “PyPDF2” и “pdfplumber”. Библиотека “json” использована для работы с данными в формате json, “pandas” - создания таблицы из полученных json-файлов и последующей работы с ней, “pyodbc” - для записи информации из json-файлов в базу данных Microsoft Access. После поиска реперных слов и сочетаний в тексте публикаций началась работа с табличными данными, среди которых выделили наиболее частотные варианты и уже для них разработали шаблон для последующего парсинга. Полезная информация из оставшихся наиболее сложных случаев извлечена с помощью DeepSeek-V3-0324 или вручную. Для устранения систематических ошибок парсинга данные из json-файлов экспортировали в сводные таблицы формата xls и выборочно (10-20%) перепроверяли, сравнивая с оригиналом статьи. API нейронной модели DeepSeek использован для: 1. выявления названий растений, которые позднее вручную приводили к общепринятому названию; 2. извлечения машинно сложно обрабатываемых данных из текста и их структурирования. Является ли растение гипераккумулятором конкретного металла, выполнено вручную по пороговым содержаниям. Для наших задач наиболее информативными и легкими в последующей обработке оказалось 15-20% статей, содержавших полные данные о содержании ТММ в растениях и почве. В 40-50% статей искомые данные были в трудно обрабатываемом формате и требовали ручной проверки и дополнительной обработки. В трети публикаций потенциально полезная для нас информация обобщена или отсутствовала. Итоговая база данных реализована в Microsoft Access и состоит из трех основных блоков таблиц: 1) данные о публикации, регионе работ, элементном составе растений и почв; 2) таксономия и верификация видов растений; 3) характеристики видов растений из внешних баз данных. Полученная база объединяет информацию о 1502 видах цветковых растений, принятых в POWO, 410 видах, для которых приведены синонимы, большая часть из которых - синонимы уже принятых названий, но часть может быть уникальной (синонимы к названиям, которых в базе нет), а также 147 сложных случаях, с которыми нужна дополнительная работа. По предварительным результатам виды-гипераккумуляторов эссенциальных Co, Cu, Mn, Ni, Zn, а также Cd (последний как очень близкий по химическим свойствам с Zn) кластеризуются на дереве жизни покрытосеменных (APG-IV), а неэссенциальных As и Au – рассеяны дисперсно.
Исследование выполнено в рамках проекта РНФ № 25-24-00343.
Растения-гипераккумуляторы, нейросетевые онлайн ресурсы
Немцова А.А., Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН (ЦЭПЛ РАН), Южный федеральный университет; Барбашев А.И., Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН (ЦЭПЛ РАН), Южный федеральный университет; Клинк Г.В., Высшая школа экономики (ВШЭ), Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН (ЦЭПЛ РАН); Леднев С.А., Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН (ЦЭПЛ РАН), Московский государственный университет им. М.В. Ломоносова; Семенков И.Н., Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН (ЦЭПЛ РАН), Московский государственный университет им. М.В. Ломоносова
Центр по проблемам экологии и продуктивности лесов им. А.С. Исаева РАН; Московский государственный университет им. М.В. Ломоносова