IX Всероссийская конференция молодых ученых с международным участием «Почвоведение: Горизонты будущего. 2025»

Бубнова Елена Юрьевна

Поволжский государственный университет телекоммуникаций и информатики


Звание, ученая степень (при наличии)

-


Сессия

25.09
14:10
15мин
Оценка пригодности существующих данных к применению методов машинного обучения для прогнозирования температурного режима мерзлотных грунтов
Бубнова Елена Юрьевна

Долгосрочный мониторинг температурного режима мерзлотных грунтов представляет собой задачу первостепенной важности для понимания динамических процессов, протекающих в криолитозоне в условиях современных климатических изменений. Накопленные за десятилетия массивы данных, полученных в ходе непрерывных наблюдений, являются ценным источником информации для анализа и прогнозирования. Однако, использование этих данных для построения надежных прогнозных моделей сопряжено с рядом методологических и технических трудностей, обусловленных, прежде всего, проблемами, связанными с качеством, полнотой и структурированностью исходной информации. В частности, отмечаются значительные вариации в полноте данных для различных горизонтов и периодов наблюдений, что затрудняет применение стандартных методов анализа временных рядов и машинного обучения. В связи с этим, разработка эффективных методов предварительной обработки данных и адаптация существующих алгоритмов машинного обучения к специфике температурных данных мерзлотных грунтов является актуальной научной задачей. В рамках настоящего исследования были использованы данные температурного мониторинга, полученные с 9 площадок, расположенных в районе Чабыда (Центральная Якутия) за период с 1981 по 2022 годы. Анализу подвергались временные ряды температуры грунтов, зафиксированные на глубинах от 1 до 10 метров с месячным разрешением. Для оценки пригодности данных к применению современных методов машинного обучения была разработана многоступенчатая методология, включающая следующие этапы: 1) анализ полноты и качества временных рядов, включающий оценку доли пропущенных значений и выявление аномальных выбросов; 2) исследование корреляционных связей между различными глубинами, направленное на выявление закономерностей в распределении температуры по глубине и времени; 3) разработка алгоритмов автоматического заполнения пропущенных значений, основанных на физических закономерностях формирования температурного поля в грунтах; 4) сравнительная оценка различных архитектур прогнозных моделей, с целью выбора наиболее эффективной для прогнозирования температурного режима. В качестве базовой модели был использован адаптированный алгоритм SARIMA (Seasonal Autoregressive Integrated Moving Average) с экзогенными переменными, позволяющий учитывать как сезонную цикличность температурных колебаний, так и взаимосвязи между температурными режимами различных горизонтов. Адаптация алгоритма заключалась во внедрении методов заполнения пропущенных значений искусственным интеллектом на этапе предварительной обработки данных. Комплексный анализ качества исходных данных показал значительную вариативность полноты данных между различными площадками и глубинами. Доля пропущенных значений варьировалась от 1-5% для основных горизонтов и до 15-20% для отдельных периодов наблюдений. Для решения этой проблемы была разработана модель заполнения пропущенных значений, учитывающих физические закономерности формирования температурного поля в грунтах, включая: пространственную интерполяцию на основе температурного градиента по глубине; сезонную интерполяцию с учетом многолетней цикличности; и корреляционное заполнение на основе взаимосвязей между соседними горизонтами. Применение разработанных методов позволило увеличить объем пригодных для анализа данных на 5-10% при сохранении физической обоснованности восстановленных значений. Установлено, что оптимальный подход зависит от глубины анализируемого горизонта. Для поверхностных слоев (1-4 м) наиболее эффективны многомерные модели, учитывающие температуры соседних горизонтов. Для глубоких горизонтов (6-10 м) предпочтительны модели с лаговыми переменными. Средняя абсолютная ошибка прогнозирования составила 0.15-0.70°C для различных глубин, что сопоставимо с точностью инструментальных измерений. Разработанные модели продемонстрировали устойчивость при тестировании на независимых наборах данных. Историческая валидация на 12-месячном периоде показала соответствие реальной точности прогнозирования ожидаемым значениям.

Работа выполнена при финансовой поддержке РНФ (грант № 23–61–10032).

1.9. Информационные технологии и математическое моделирование в почвоведении и науках о Земле
Актовый зал (4 этаж)