25.09.2025 –, Стенд-холл 1 (коридор 3 этажа)
Современный агропромышленный комплекс обуславливает необходимость оперативного сбора, обработки и систематического обновления данных о генетических ресурсах растений, при этом источник информации постоянно расширяется за счёт появления новых сортов и их описаний. Большие языковые модели (БЯМ) открывают возможности автоматического извлечения фактов из неструктурированных текстов, однако в естественно-научных дисциплинах требования к качеству и верифицируемости данных выше, чем в типичных прикладных сценариях ИИ. В этих условиях актуальна задача создания ИИ-агента, переводящего предметный текст в согласованные, машиночитаемые структуры базы данных, пригодные для аналитики и моделирования. Цель исследования — разработать ИИ-агента для нормализации текстов в узкопрофильных доменах (почвоведение, агрономия, селекция) на материале публикаций Госсортреестра, а также инициировать обсуждение об архитектурных принципах, прикладной роли ИИ-агентов в почвоведении и потенциальной траектории развития. Современные исследования по классификации аграрных текстов демонстрируют высокую востребованность и практический потенциал больших языковых моделей (БЯМ) для автоматизации извлечения профильной информации. В данном контексте текстовые описания, публикуемые Госсортреестром, образуют ценную исходную базу: они включают сведения о хозяйственно значимых и биологических признаках растений, их морфологических характеристиках, а также об устойчивости к болезням и абиотическим факторам. Преобразование этих данных в структурированный машиночитаемый формат обеспечивает их интеграцию в системы поддержки принятия решений и аналитические модули, что, в свою очередь, позволяет формировать прикладные рекомендации — от подбора схем внесения удобрений до выбора оптимальных средств защиты растений. Создан прототип, реализующий полный конвейер от неструктурированных описаний сортов к реляционной БД свойств, что позволяет формировать сложные, составные запросы и поисковые фильтры. Разработанный пайплайн включает в себя: декомпозицию исходного текста в промежуточное JSON-представление с помощью БЯМ; экстракцию ключевых свойств (урожайность, вегетационный период, родословная, устойчивость к болезням и вредителям, устойчивость к абиотическим факторам); приведение данных к нормализованному виду по формальным схемам валидации и загрузку в БД с обеспечением ссылочной целостности. Дальнейшее развитие предполагает: использование агентных фреймворков для повышения автономности (самооценка моделями результатов и обратная связь), расширение источников (научные публикации, данные полевых экспериментов), усиление контроля качества, а также реализация извлечения данных, где пользователь задаёт целевые свойства формальными спецификациями в виде схем.
семантическое извлечение информации, языковые модели
Фомин Д.С., Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"; Цымбарович П.Р., Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"
Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"