КОМПЬЮТЕРНОЕ ЗРЕНИЕ В ГЕОЛОГИИ: СОВРЕМЕННЫЕ МЕТОДЫ И ТЕНДЕНЦИИ

КОМПЬЮТЕРНОЕ ЗРЕНИЕ В ГЕОЛОГИИ: СОВРЕМЕННЫЕ МЕТОДЫ И ТЕНДЕНЦИИ

Авторы публикации

Рубрика

Информационные технологии

Просмотры

5

Журнал

Журнал «Научный лидер» выпуск # 3 (256), Январь ‘26

Поделиться

Стремительное накопление визуальных данных в науках о Земле – от спутниковых снимков до микроскопических изображений пород – создает как беспрецедентные возможности, так и серьезные вызовы для традиционных методов анализа. В данной обзорной статье систематизируются современные подходы к решению геологических задач с применением технологий компьютерного зрения. Рассмотрены ключевые типы геоданных, основные решаемые задачи (классификация, детекция, сегментация) и конкретные приложения, включая мониторинг вулканической активности, картирование разломов и петрографический анализ. Особое внимание уделено эволюции архитектур нейронных сетей и современных фреймворков, а также анализу преимуществ, ограничений и перспективных направлений развития данной междисциплинарной области.

Введение

Современная геология переживает революцию, вызванную экспоненциальным ростом объёма и сложности визуальных данных от спутников, БПЛА и лабораторных исследований [1]. Традиционные методы анализа, основанные на полевых работах и визуальной экспертизе, становятся узким местом из-за своей трудоёмкости, субъективности и плохой масштабируемости.

В этом контексте технологии искусственного интеллекта, в частности компьютерное зрение (Computer Vision, CV), становятся критически важным инструментом. CV позволяет машинам интерпретировать визуальные данные, извлекая из них значимую информацию. Его внедрение трансформирует геологическую практику, обеспечивая автоматизацию, повышение точности и скорости анализа, а также обнаружение скрытых паттернов.

Целью данной обзорной статьи является систематизация современных методов, задач и приложений компьютерного зрения в геологии, включая рассмотрение типов данных, алгоритмических задач, успешных кейсов, а также текущих ограничений и перспективных направлений развития этой междисциплинарной области.

1 Методологические основы компьютерного зрения

1.1 Исторический контекст и базовые понятия

Эволюция компьютерного зрения насчитывает несколько десятилетий. Еще в 1970-х годах появились фундаментальные алгоритмы, такие как преобразование Хафа для обнаружения линий. Однако качественный скачок произошел в 2010-х годах с распространением глубокого обучения (Deep Learning) и сверточных нейронных сетей (Convolutional Neural Networks, CNN), которые радикально повысили способность машин к распознаванию образов.

Современный конвейер обработки данных в CV включает несколько этапов: получение изображения, его предварительная обработка (шумоподавление, контрастирование), извлечение признаков (features extraction) и, наконец, распознавание паттернов для решения конкретной задачи. Именно на этапе распознавания применяются сложные нейросетевые архитектуры.

1.2 Ключевые задачи компьютерного зрения в контексте геологии

Для геологических приложений наиболее релевантны следующие задачи CV:

  • Классификация изображений (Image Classification): Цель – присвоить всему изображению метку категории (например, "базальт", "песчаник", "оползневой рельеф"). Это базовая задача, лежащая в основе автоматического определения типа горной породы или ландшафта.
  • Детекция объектов (Object Detection): Задача не только классифицировать объекты на изображении, но и локализовать их с помощью ограничивающих рамок (bounding boxes). Например, это позволяет выявлять и отмечать на спутниковом снимке отдельные оползневые тела или трещины.
  • Сегментация экземпляров (Instance Segmentation): Более сложная задача, которая сочетает детекцию с точным пиксельным разделением (сегментацией) каждого объекта. Это критически важно для количественного анализа, такого как вычисление площади трещиноватости в образце породы или отслеживание изменений границ ледника.

Прогресс в решении этих задач напрямую связан с развитием нейросетевых архитектур. Исторически отправной точкой стали такие сети, как LeNet-5 (1998), разработанная для распознавания рукописных цифр и продемонстрировавшая потенциал CNN. Прорывной стала AlexNet (2012), победившая в соревновании ImageNet. Ее успех был обусловлен использованием функции активации ReLU, методов регуляризации и аугментации данных. Дальнейшее углубление сетей привело к появлению архитектур типа VGGNet (2014), которая стандартизировала использование последовательных сверточных слоев с малыми фильтрами, что позволило эффективно захватывать сложные иерархические признаки [2].

Сегодня доминирующим трендом являются сквозные (end-to-end) модели реального времени. Ярчайший пример – семейство YOLO (You Only Look Once). Если ранние версии, такие как YOLOv8 (2023), уже предлагали удачный баланс скорости и точности за счет anchor-free детекторной головки, то последующие итерации были сосредоточены на решении внутренних проблем. YOLOv9 (2024) представил механизм Programmable Gradient Information (PGI) для более эффективного прохождения градиентов и сохранения информации в глубоких сетях. YOLOv10 (2024) совершил прорыв, полностью отказавшись от этапа Non-Maximum Suppression (NMS) на инференсе за счет усовершенствованной процедуры обучения, что еще больше увеличило скорость. Анонсированная в конце 2024 года модель YOLO11 продолжает эту тенденцию, фокусируясь на повышении эффективности и точности для широкого спектра задач, включая работу с геоданными.

1.3 Типы визуальных данных в геологических исследованиях

Выбор методов компьютерного зрения тесно связан с типом и природой исходных данных. В геологии применяется мультимасштабная и мультиспектральная съемка:

Дистанционное зондирование:

  • Спутниковые снимки: Обеспечивают широкомасштабное покрытие, позволяют отслеживать динамические процессы (движение ледников, эрозию берегов) и анализировать мультиспектральные каналы для оценки состояния растительности или геотермальной активности.
  • Съемка с БПЛА (дронов): Дает данные сверхвысокого разрешения для локальных участков. Оснащение дронов камерами, лидарами и тепловизорами позволяет создавать детальные цифровые модели рельефа (ЦМР) и 3D-модели обнажений.
  • Радарные данные (SAR): Радар с синтезированной апертурой (SAR) предоставляет информацию независимо от времени суток и облачности, что незаменимо для мониторинга деформаций земной поверхности (субсиденций, тектонических смещений).

Лабораторные и полевые данные:

  • Микроскопические изображения (петрографические шлифы, SEM): Являются основой для автоматического минералогического анализа, определения текстур и подсчета пор.
  • Фотографии керна и обнажений: Используются для литологического расчленения, документирования структур и стратиграфии.

Каждый тип данных предъявляет свои требования к предобработке, аугментации и выбору архитектуры модели, что подчеркивает важность разработки предметно-ориентированных (domain-specific) подходов в ИИ.

2 Применение компьютерного зрения в геологических исследованиях

Использование методов компьютерного зрения охватывает все уровни геологических исследований – от планетарного масштаба до нанопор. Ниже систематизированы ключевые направления их приложения.

2.1 Мониторинг опасных геологических процессов и дистанционное зондирование

Автоматический анализ данных дистанционного зондирования является одним из наиболее социально и экономически значимых приложений CV в геологии. Основные задачи включают:

  • Картирование и мониторинг оползней. Алгоритмы сегментации, такие как U-Net и его производные, обучаются распознавать характерные формы, текстуры и спектральные сигнатуры оползневых тел на спутниковых снимках и цифровых моделях рельефа (ЦМР), построенных по данным LiDAR. Это позволяет не только создавать инвентаризационные карты для целых регионов, но и оперативно выявлять новые события, анализируя временные серии снимков.
  • Обнаружение и отслеживание тектонических разломов. Традиционная интерпретация сейсмических разломов в 3D-кубах – трудоемкий процесс. Современные подходы, использующие 3D-CNN (трехмерные сверточные нейронные сети), автоматически выделяют когерентные структуры, соответствующие разломам. Например, исследователи применяют архитектуры, подобные VNet, для семантической сегментации разломов в сейсмических объемах, что значительно ускоряет построение структурных моделей. Аналогичные методы применяются для анализа спутниковых радиолокационных данных (InSAR) с целью картирования активных разрывов по их поверхностным проявлениям.
  • Вулканологический мониторинг. Здесь CV решает задачи детекции и классификации извергающихся вулканов по спутниковым снимкам в различных спектральных диапазонах, отслеживания распространения шлейфов пепла (что критически важно для авиационной безопасности) и мониторинга термических аномалий для оценки активности.

2.2 Петрографический и микроскопический анализ

Анализ изображений горных пород на микроуровне – область, где CV демонстрирует исключительную эффективность, беря на себя рутинные и субъективные задачи петрографа.

  • Минералогическая классификация и сегментация. Это ключевое приложение. Методы глубокого обучения, такие как Mask R-CNN или специализированные архитектуры на основе U-Net, используются для точного выделения (сегментации) границ отдельных минеральных зерен на изображениях шлифов в проходящем или отраженном свете, а также на растровых электронно-микроскопических (SEM) изображениях. Последующая классификация каждого сегмента по его оптическим свойствам (цвет, двулучепреломление) или химическому составу (по данным EDS) позволяет автоматически генерировать количественные минералогические карты. Например, исследования показывают, что применение алгоритмов активного обучения (active learning) для сегментации SEM-изображений сланцев позволяет достичь высокой точности (mIoU > 0.85) даже при ограниченном объеме размеченных данных.
  • Количественный анализ текстур и порового пространства. После сегментации модель может автоматически вычислять десятки параметров: распределение зерен по размеру и форме, степень окатанности, ориентировку длинных осей (для анализа палеотечений), пористость, размер пор и их связность. Эти данные, получаемые за минуты, ранее требовали многих часов рутинных измерений. Так, проводится сравнительный анализ архитектур FCN, U-Net и DeepLabV3+ для сегментации микротомографических изображений песчаника, что напрямую служит задаче количественного описания порового пространства [3].

2.3 Инженерная геология и геотехника

В этой прикладной области CV способствует повышению безопасности и автоматизации.

  • Автоматизированное картирование трещиноватости обнажений и горных выработок. Применение алгоритмов детекции (YOLO) и семантической сегментации на фотографиях или 3D-моделях скальных массивов, полученных с помощью фотограмметрии или лазерного сканирования, позволяет быстро определять основные системы трещин, их spacing, протяженность и ориентировку. Это является основой для оценки устойчивости склонов и горных откосов.
  • Мониторинг состояния инженерных сооружений. Методы компьютерного зрения используются для автоматического выявления деформаций, трещин и других дефектов в тоннелях, на откосах карьеров и дамб. Например, в некоторых исследованиях, для построения цифровых карт тоннелей метрополитена и выявления дефектов обделки применяются нейронные сети, что позволяет перейти от визуального осмотра к систематическому количественному мониторингу [4].
  • Анализ керна. Быстрая и стандартизированная обработка керна – еще одна важная задача. CV-алгоритмы классифицируют литологические типы пород по фотографиям керна, выделяют интервалы трещиноватости и проводят предварительную литолого-стратиграфическую привязку. Для сегментации трещин и пор на изображениях разверток керна предлагаются специализированные архитектуры, такие как MFAPNet (Multi-Scale Feature Aggregation Pyramid Network), показавшие высокую эффективность в задаче количественной характеристики неоднородностей [5].

3 Сравнительный анализ методов и архитектур

Разнообразие геологических задач и данных привело к необходимости выбора оптимальных решений. В таблице 1 представлен сравнительный анализ ключевых архитектур и методов CV, применяемых в геологии.

Таблица 1 – Сравнение методов CV для геологических задач

Метод

Задача

Тип данных

Преимущества

Ограничения

Применения

Классические CNN (VGG, ResNet)

Классификация изображений

2D фото, снимки

Высокая точность, хорошая изученность, множество предобученных моделей.

Плохая локализация объектов, "черный ящик".

Лито-классификация по фото керна, классификация форм рельефа [6]

U-Net и производные (DeepLabV3+)

Семантическая сегментация

2D/3D изображения (шлифы, сейсмика)

Эффективно сохраняет пространственные детали. Идеально для геологических изображений.

Требует большого набора размеченных данных для обучения с нуля.

Сегментация минералов в шлифах, выделение разломов в сейсмике, анализ пор в микро-КТ

YOLO (v8-v11)

Детекция объектов в реальном времени

2D фото, видео

Очень высокая скорость обработки, хороший баланс точности и скорости.

Меньшая точность локализации по сравнению с методами сегментации.

Детекция валунов на склонах, обнаружение трещин в горных выработках, мониторинг оборудования

Ансамбли моделей (AdaBoost-CNN)

Классификация/прогноз на сложных данных

Сейсмические атрибуты, мультиспектральные данные

Повышенная надежность и обобщающая способность, снижение переобучения.

Вычислительно затратны, сложнее в интерпретации.

Прогноз литологии по сейсмическим данным [7]

Трансферное обучение / Fine-tuning

Любая задача при малом объеме данных

Любые изображения

Позволяет использовать знания, полученные на больших датасетах (ImageNet). Крайне эффективно для специализированных геоданных.

Риск смещения модели (bias) к особенностям исходного датасета.

Настройка предобученной ResNet для классификации пород, fine-tuning DINOv2 для анализа КТ-сканеров

Активное обучение

Сегментация/классификация при дорогой разметке

SEM, шлифы, нишевые данные

Резко сокращает объем требуемой ручной разметки за счет итеративного выбора наиболее информативных образцов.

Сложность реализации активного цикла, зависимость от стратегии запроса.

Сегментация SEM-изображений сланцев [8]

Эволюция методов демонстрирует четкий тренд: от использования готовых классических архитектур к разработке и адаптации специализированных решений, учитывающих специфику геоданных (малый объем, шум, слабая размеченность). Важным направлением является создание легковесных моделей, таких как Slim_UNet, предназначенных для развертки на мобильных или встраиваемых системах для анализа керна непосредственно в поле или на буровой. Одновременно наблюдается рост интереса к применению больших фундаментальных моделей, например, компьютерного зрения DINOv2, которые после тонкой настройки с помощью методов вроде LoRA показывают выдающиеся результаты на задачах классификации и сегментации специализированных КТ-сканеров горных пород [9].

4 Тенденции и перспективы развития

Широкое внедрение компьютерного зрения в геологию сдерживается ключевыми вызовами: дефицит размеченных данных, низкая обобщаемость моделей, проблема «чёрного ящика» и необходимость работы в условиях ограниченных вычислительных ресурсов. В ответ формируются перспективные направления исследований, такие как активное и самообучение, генеративная аугментация данных и использование фундаментальных моделей с эффективной донастройкой (например, тонкая настройка DINOv2 с помощью LoRA для анализа КТ-сканеров) для решения проблем с данными. Для повышения доверия и достоверности развиваются методы объяснимого ИИ и создаются гибридные физически-информированные модели. Одновременно для практического применения в полевых условиях разрабатываются легковесные архитектуры, как модель Slim_UNet для сегментации керна на мобильных устройствах. Эти тренды знаменуют переход к созданию специализированных инструментов, адаптированных к уникальным требованиям геологической науки.

Заключение

Анализ современных исследований и технологических трендов однозначно свидетельствует о том, что компьютерное зрение перестало быть просто экспериментальным инструментом в геологии, а превратилось в критически важный компонент научного и прикладного процессов. От автоматизации рутинного петрографического анализа до мониторинга глобальных геодинамических процессов – методы CV демонстрируют способность решать задачи, ранее недоступные для эффективной алгоритмизации.

Основной вектор развития области заключается в преодолении ключевых вызовов, связанных с природой геоданных. Специализация алгоритмов под конкретные задачи (от легковесных Slim_UNet для полевого анализа керна до мощных DINOv2 для лабораторной КТ-томографии) становится нормой. Параллельно, стратегии обучения при малом объеме данных, такие как активное обучение, трансферное обучение и генерация синтетических образцов, решают проблему дорогостоящей экспертной разметки. Наиболее перспективным направлением, способным обеспечить физическую правдоподобность и обобщаемость результатов, является развитие гибридных, физически-информированных моделей, в которых законы геомеханики и петрологии интегрированы в архитектуру нейронной сети.

Таким образом, будущее геологических исследований видится в тесной конвергенции предметного экспертного знания и передовых алгоритмов искусственного интеллекта. Внедрение компьютерного зрения не заменяет геолога, но кардинально расширяет его аналитические возможности, переводя работу с качественного, описательного уровня на уровень точного, количественного, прогнозного анализа. Дальнейший прогресс будет зависеть от успешного сотрудничества специалистов обеих дисциплин в создании стандартизированных датасетов, интерпретируемых моделей и новых вычислительных парадигм, учитывающих фундаментальные принципы наук о Земле.

Список литературы

  1. Компьютерное зрение в геологии: новое определение наук о Земле. URL: (дата обращения: 20.12.2025).
  2. Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений. URL: (дата обращения: 20.12.2025).
  3. Hayatdavoudi, M., M.E. Niri, A. Kalhor. Comparative analysis of sandstone microtomographic image segmentation using advanced convolutional neural networks with pixelwise and physical accuracy evaluation. Scientific Reports, 2025.
  4. Парамонов С.С. Разработка метода построения цифровых карт перегонных тоннелей метрополитена для выявления визуальных дефектов с помощью нейронных сетей: автореф. дис. … канд. техн. наук. М., 2025.
  5. Lai, Qiang, Yuyu Wu, Yu Zeng, et al. Quantitative characterization of fractures and holes in core rolling scan images based on the MFAPNet deep learning model. Frontiers in Earth Science, 2024.
  6. Gupta, Amit & Mathur, Priya & Sheth, Farhan & Travieso, Carlos & Chaurasia, Sandeep. Advancing Geological Image Segmentation: Deep Learning Approaches for Rock Type Identification and Classification. Applied Computing and Geosciences, 2024.
  7. Nie, Wenliang & Gu, Jiayi & Li, Bo & Wen, Xiaotao & Nie, Xiangfei. Quantitative Lithology Prediction from Seismic Data Using Deep Learning. Computers & Geosciences, 2024.
  8. Yin, Binqian. Machine Learning‑based Methods for the Segmentation of Scanning Electron Microscopy Images of Fine‑Grained Shale Samples: докторская диссертация, The University of Texas at Arlington, 2022.
  9. Brondolo, Florent & Beaussant, Samuel. DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability. Journal of Rock Mechanics and Geotechnical Engineering, 2025.