IX Всероссийская конференция молодых ученых с международным участием «Почвоведение: Горизонты будущего. 2025»

Доменно-ориентированный бенчмарк для русскоязычных данных по растениеводству и агрономии
25.09.2025 , Стенд-холл 1 (коридор 3 этажа)

Развитие методов обработки естественного языка (Natural Language Processing, NLP) актуализирует задачу объективной оценки их применимости в естественно-научных дисциплинах, в частности в домене знаний по растениеводству и агрономии. Особый интерес представляют большие языковые модели (Large Language Model, LLM), способные анализировать и систематизировать текстовую информацию. Под бенчмарком далее понимается стандартизированный набор задач, данных и метрик с фиксированными процедурами, предназначенный для сопоставимой оценки языковых моделей. В контексте узкопрофессиональных доменов знаний, таких как почвоведение, агрономия, селекция, такой инструмент необходим для проверки работы моделей с русскоязычными источниками, терминологией, числовыми величинами и единицами измерений, а также для получения проверяемых ответов по первоисточнику. Отсутствие общепринятых протоколов для этих задач затрудняет сопоставимость результатов и воспроизводимость исследований, что приводит к разрыву между потенциалом моделей и их реальной применимостью в решении задач анализа почвенных данных. Цель работы —постановка проблемы и требований к специализированному бенчмарку для оценки возможностей языковых моделей при обработке русскоязычных научно-технических текстов аграрного и почвенного профилей. Предлагаемый подход охватывает три класса задач: (1) ответы на вопросы по предоставленному контексту, (2) структурированное извлечение сведений в нормализованные схемы, пригодные для последующего анализа, (3) вопросы без контекста для оценки фоновых знаний в домене. В рамках предварительной работы начато формирование QA-наборов по описаниям сортов из Госсортреестра как ближайшего по структуре корпуса; по аналогии планируется перенос методологии на почвоведческие документы: полевые журналы, описания разрезов, научные публикации. Предполагаемые исследования включают: выпуск пилотного QA-наборов на основе материалов Госсортреестра со структурой примеров «контекст – вопрос – эталонный ответ» для оценки способностей языковых моделей отвечать на вопросы с контекстом и без, а также выводить структурированный ответ в формате JSON; подбор и апробация комплекса метрик в качестве формализованных критериев оценки качества работы моделей, а также реализация подхода LLM-as-Judge. Ожидаемым результатом является согласованное описание требований и процедур, на основе которого будет разработан доменно-ориентированный бенчмарк для работы в области знаний по почвоведению, селекции и растениеводству. Это обеспечит сопоставимость и воспроизводимость результатов, а также повысит практическую применимость современных моделей в исследованиях и прикладных задачах почвоведения.


большие языковые модели, анализ данных


Соавторы доклада и их аффилиации:

Фомин Д.С., Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"; Цымбарович П.Р., Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"

Федеральный исследовательский центр "Почвенный институт имени В.В. Докучаева"

Этот докладчик также участвует в: