IX Всероссийская конференция молодых ученых с международным участием «Почвоведение: Горизонты будущего. 2025»

Солдаткина Маргарита Алексеевна

Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"


Сессии

25.09
16:08
2мин
Разработка ИИ-агента для нормализации текстов в области почвоведения, селекции и растениеводства
Солдаткина Маргарита Алексеевна

Современный агропромышленный комплекс обуславливает необходимость оперативного сбора, обработки и систематического обновления данных о генетических ресурсах растений, при этом источник информации постоянно расширяется за счёт появления новых сортов и их описаний. Большие языковые модели (БЯМ) открывают возможности автоматического извлечения фактов из неструктурированных текстов, однако в естественно-научных дисциплинах требования к качеству и верифицируемости данных выше, чем в типичных прикладных сценариях ИИ. В этих условиях актуальна задача создания ИИ-агента, переводящего предметный текст в согласованные, машиночитаемые структуры базы данных, пригодные для аналитики и моделирования. Цель исследования — разработать ИИ-агента для нормализации текстов в узкопрофильных доменах (почвоведение, агрономия, селекция) на материале публикаций Госсортреестра, а также инициировать обсуждение об архитектурных принципах, прикладной роли ИИ-агентов в почвоведении и потенциальной траектории развития. Современные исследования по классификации аграрных текстов демонстрируют высокую востребованность и практический потенциал больших языковых моделей (БЯМ) для автоматизации извлечения профильной информации. В данном контексте текстовые описания, публикуемые Госсортреестром, образуют ценную исходную базу: они включают сведения о хозяйственно значимых и биологических признаках растений, их морфологических характеристиках, а также об устойчивости к болезням и абиотическим факторам. Преобразование этих данных в структурированный машиночитаемый формат обеспечивает их интеграцию в системы поддержки принятия решений и аналитические модули, что, в свою очередь, позволяет формировать прикладные рекомендации — от подбора схем внесения удобрений до выбора оптимальных средств защиты растений. Создан прототип, реализующий полный конвейер от неструктурированных описаний сортов к реляционной БД свойств, что позволяет формировать сложные, составные запросы и поисковые фильтры. Разработанный пайплайн включает в себя: декомпозицию исходного текста в промежуточное JSON-представление с помощью БЯМ; экстракцию ключевых свойств (урожайность, вегетационный период, родословная, устойчивость к болезням и вредителям, устойчивость к абиотическим факторам); приведение данных к нормализованному виду по формальным схемам валидации и загрузку в БД с обеспечением ссылочной целостности. Дальнейшее развитие предполагает: использование агентных фреймворков для повышения автономности (самооценка моделями результатов и обратная связь), расширение источников (научные публикации, данные полевых экспериментов), усиление контроля качества, а также реализация извлечения данных, где пользователь задаёт целевые свойства формальными спецификациями в виде схем.

1.9. Информационные технологии и математическое моделирование в почвоведении и науках о Земле
Стенд-холл 1 (коридор 3 этажа)
25.09
16:10
2мин
Доменно-ориентированный бенчмарк для русскоязычных данных по растениеводству и агрономии
Солдаткина Маргарита Алексеевна

Развитие методов обработки естественного языка (Natural Language Processing, NLP) актуализирует задачу объективной оценки их применимости в естественно-научных дисциплинах, в частности в домене знаний по растениеводству и агрономии. Особый интерес представляют большие языковые модели (Large Language Model, LLM), способные анализировать и систематизировать текстовую информацию. Под бенчмарком далее понимается стандартизированный набор задач, данных и метрик с фиксированными процедурами, предназначенный для сопоставимой оценки языковых моделей. В контексте узкопрофессиональных доменов знаний, таких как почвоведение, агрономия, селекция, такой инструмент необходим для проверки работы моделей с русскоязычными источниками, терминологией, числовыми величинами и единицами измерений, а также для получения проверяемых ответов по первоисточнику. Отсутствие общепринятых протоколов для этих задач затрудняет сопоставимость результатов и воспроизводимость исследований, что приводит к разрыву между потенциалом моделей и их реальной применимостью в решении задач анализа почвенных данных. Цель работы —постановка проблемы и требований к специализированному бенчмарку для оценки возможностей языковых моделей при обработке русскоязычных научно-технических текстов аграрного и почвенного профилей. Предлагаемый подход охватывает три класса задач: (1) ответы на вопросы по предоставленному контексту, (2) структурированное извлечение сведений в нормализованные схемы, пригодные для последующего анализа, (3) вопросы без контекста для оценки фоновых знаний в домене. В рамках предварительной работы начато формирование QA-наборов по описаниям сортов из Госсортреестра как ближайшего по структуре корпуса; по аналогии планируется перенос методологии на почвоведческие документы: полевые журналы, описания разрезов, научные публикации. Предполагаемые исследования включают: выпуск пилотного QA-наборов на основе материалов Госсортреестра со структурой примеров «контекст – вопрос – эталонный ответ» для оценки способностей языковых моделей отвечать на вопросы с контекстом и без, а также выводить структурированный ответ в формате JSON; подбор и апробация комплекса метрик в качестве формализованных критериев оценки качества работы моделей, а также реализация подхода LLM-as-Judge. Ожидаемым результатом является согласованное описание требований и процедур, на основе которого будет разработан доменно-ориентированный бенчмарк для работы в области знаний по почвоведению, селекции и растениеводству. Это обеспечит сопоставимость и воспроизводимость результатов, а также повысит практическую применимость современных моделей в исследованиях и прикладных задачах почвоведения.

1.9. Информационные технологии и математическое моделирование в почвоведении и науках о Земле
Стенд-холл 1 (коридор 3 этажа)