II Симпозиум  "Структура почв, пород и грунтов: актуальные исследования, теория и практика"

Увеличение разрешения изображений почвы методами глубокого обучения: генеративные и диффузионные сети
29.05.2025 , Стенд-холл (коридор 3 этажа)

Генеративно-состязательные сети (GAN, Generative Adversarial Networks) и диффузионные вероятностные модели представляют два принципиально различных подхода к задаче суперразрешения (super-resolution) изображений почв, полученных методом компьютерной томографии (КТ). GAN обучают генератор воспроизводить высокочастотные текстуры, дискриминатор учится отличать синтетические фрагменты от реальных. Этот состязательный процесс даёт визуально чёткие результаты, но сопровождается резким падением качества, особенно при значительном повышении разрешения. Диффузионные модели, напротив, осуществляют постепенное многошаговое удаление шума из случайного сигнала, созданного исходным увеличенным изображением. Каждый шаг последовательно восстанавливает структурные детали, благодаря чему итоговые изображения лучше сохраняют исходную топологию порового пространства, не только оптимизируя показатели попиксельного сходства.
В проведённой нами оценке 34 КТ-срезов почвенных образцов модель SRLGAN на увеличении 4× достигла значений PSNR (Peak Signal-to-Noise Ratio) 28.11±2.35 дб и SSIM (Structural Similarity Index) 0.74±0.08, с ошибкой оценки пористости (porosity error) 1.72±1.60% и расхождением Дженсена–Шеннона (Jensen–Shannon divergence) 0.35±0.10. Модель Real-ESRGAN показала сходные результаты при времени вывода менее 0.05 с на входное изображение 64×64, однако качество значительно ухудшилось на увеличении 8×: PSNR упал до 21.94±2.65 дб, SSIM – до 0.44±0.11, ошибка пористости увеличилась до 5.00±4.22%. Диффузионная модель SR3 показала при увеличении 4× значения PSNR 24.14±2.24 дб и SSIM 0.64±0.11 с ошибкой оценки пористости 0.74±0.82% и расхождением распределения размеров пор (pore-size divergence) 0.23±0.08; её модификация XCT-SR3, с удлиненным временем генерации, позволила увеличить PSNR до 27.12±2.63 дб, SSIM до 0.67±0.10 и снизить ошибку оценки пористости до 0.63±0.63%. При 8-кратном увеличении SR3 сохранила показатели 23.18±2.60 дб и 0.48 ±0.13 SSIM при ошибке пористости 0.70±0.90%, в то время как XCT-SR3 достигла 23.61± 3.05 дб, 0.51±0.11 SSIM и ошибки пористости 0.89±0.96%.
Результаты демонстрируют компромисс между подходами. GAN обеспечивают быстрое получение визуально качественных реконструкций при умеренном увеличении разрешения, что важно в прикладных задачах, требующих обработки больших массивов данных или увеличения изображений в реальном времени. Вместе с тем, природа их обучения порождает артефакты и нестабильные результаты на высоких масштабах увеличения (x8), ухудшая количественные характеристики порового пространства. Диффузионные модели, несмотря на высокие вычислительные затраты, дают наиболее точное воспроизведение структуры пор на различных масштабах. Итеративный процесс удаления шума обеспечивает минимальное отклонение таких топологических показателей, как число Эйлера (Euler number), позволяя реконструированным изображениям максимально точно соответствовать исходной топологии образцов. Таким образом, если основной целью суперразрешения является получение визуально чётких КТ-срезов для качественной интерпретации, подходы на основе GAN (SRLGAN или Real-ESRGAN), представляют собой рациональный компромисс между скоростью работы и качеством текстур. В задачах количественной оценки почвенных образцов, где точность воспроизведения пористости, распределения размеров и связности пор определяет последующий анализ, наиболее надёжными оказываются диффузионные модели, особенно XCT-SR3, несмотря на высокие вычислительные затраты.

Работа выполнена при финансовой поддержке Министерства науки и высшего образования Российской Федерации (Соглашение №075-15-2024-545 от 24 апреля 2024 года).


КТ, Super-Resolution, глубокое обучение

ФИЦ «Почвенный институт им. В.В. Докучаева»