Журнал «Научный лидер» выпуск #17 (218), Апрель ‘25

ИССЛЕДОВАНИЕ МЕТОДОВ ОБНАРУЖЕНИЯ ДЕФЕКТОВ СТАЛЬНОЙ ПОВЕРХНОСТИ НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ С ПРИМЕНЕНИЕМ МЕХАНИЗМОВ ВНИМАНИЯ И ГИБРИДНЫХ АРХИТЕКТУР

Авторы публикации

Темирязев Виталий АндреевичНикитин Константин Александрович

Рубрика

Информационные технологии

Просмотры

485

Журнал

Журнал «Научный лидер» выпуск # 17 (218), Апрель ‘25

В статье представлено исследование эффективности различных методов улучшения детекции дефектов стальной поверхности с использованием сверточных нейронных сетей. Рассмотрены механизмы внимания (Squeeze-and-Excitation, CBAM), гибридные подходы на основе Faster R-CNN, а также модификация YOLOv9-s в качестве генератора регионов интереса. Эксперименты проведены на датасете из 133 изображений с тремя классами дефектов: окалина, царапины и пятна. Наивысшую точность (mAP50 = 0.879) продемонстрировал метод с SE-блоками, что подтверждает их эффективность для задач промышленной инспекции.

нейронные сети

дефекты стальной поверхности

механизмы внимания

гибридные архитектуры

YOLOv9-s

Введение

Контроль качества стальной поверхности является критически важной задачей в металлургической промышленности. Традиционные методы визуального осмотра обладают низкой эффективностью из-за субъективности и высокой трудоёмкости. Современные системы компьютерного зрения на основе глубокого обучения, такие как YOLO и Faster R-CNN, позволяют автоматизировать процесс, однако их точность ограничена при работе с низкоконтрастными и мелкими дефектами [1].

В последние годы механизмы внимания, включая Squeeze-and-Excitation (SE) и Convolutional Block Attention Module (CBAM), стали активно применяться для улучшения выразительности признаков в задачах компьютерного зрения [2, 3]. Их интеграция в детекторы объектов может повысить точность локализации дефектов, однако подобные модификации требуют тщательного анализа влияния на архитектуру и вычислительную нагрузку.

Целью данного исследования является проведение сравнительного анализа методов улучшения детекции дефектов стальной поверхности, включая SE-блоки, CBAM, гибридные архитектуры на основе Faster R-CNN, а также использование YOLOv9-s в качестве Region Proposal Network (RPN).

Squeeze-and-Excitation (SE) блок

SE-блок, предложенный в работе Hu et al. [4], реализует механизм каналового внимания, который усиливает каналы, отвечающие за ключевые признаки объекта. На этапе сжатия (squeeze) глобальный средний пулинг (pulling) агрегирует пространственную информацию в вектор каналов. На этапе возбуждения (excitation) два полносвязных слоя с нелинейными активациями перераспределяют значимость каналов. Внедрение SE-блоков в YOLOv9-s (рис. 1) увеличило количество параметров модели на 0.04 млн при сохранении вычислительной эффективности (38.8 GFLOPs).

Рисунок 1. Внедрение SE-блоков в YOLOv9-s

Convolutional Block Attention Module (CBAM)

CBAM [5] комбинирует каналовое и пространственное внимание. Каналовый модуль использует глобальный средний и максимальный пулинг, а пространственный — свёртку 7×7 для выделения значимых областей. Несмотря на гибкость подхода, интеграция CBAM в YOLOv9-s привела к избыточному росту параметров (9.86 млн) и снижению mAP50 до 0.589, что свидетельствует о переобучении на малом датасете.

Гибридная архитектура с Faster R-CNN Head

Замена стандартной головы YOLO на модуль Faster R-CNN [6] позволила разделить задачи генерации регионов и их классификации. Реализация RPN с якорями, адаптированными под геометрию дефектов, улучшила mAP50 до 0.851. Однако двухэтапная обработка увеличила время инференса, что ограничивает промышленное применение.

YOLOv9-s в качестве RPN

Метод основан на двухэтапной архитектуре, где первый этап — это использование модели YOLOv9-s для генерации регионов интереса (Region of Interest, ROI). Эта модель быстро и эффективно выделяет потенциальные области с дефектами на изображении. После детекции регионов интереса данные передаются на второй этап — отдельный модуль классификации, который уточняет принадлежность выявленных областей к определённым классам дефектов. Использование YOLOv9-s для генерации регионов интереса с последующей классификацией в отдельном модуле показало высокую скорость обучения (0.253 часа) и эффективность для детекции окалины (mAP50 = 0.879). Однако метод уступил в точности для класса "пятна" из-за слабой адаптации к неоднородным текстурам.

Результаты исследования

Эксперименты проводились на датасете из 133 изображений (1152 экземпляра дефектов) с использованием оптимизаторов AdamW и SGD. Наивысшие метрики достигнуты при внедрении SE-блоков: mAP50 = 0.879, mAP50-95 = 0.505. Для класса "царапины" точность составила 0.932, что объясняется усилением границ за счёт каналового внимания. Основные результаты метрик представлены в таблице 1.

Таблица 1.

Ключевые метрики

Метод	mAP50 (all)	mAP50-95 (all)	Время обучения (ч)	Параметры (M)
SE блок	0.879	0.505	3.181	9.64
CBAM	0.589	0.255	2.942	9.86
R-CNN	0.851	0.475	2.874	9.60
RPN	0.826	0.443	0.253	9.60

Гибридный подход с Faster R-CNN улучшил локализацию (mAP50 = 0.851), но уступил SE-блокам из-за повышенной сложности. CBAM показал наименьшую эффективность, что согласуется с выводами Woo et al. [5] о необходимости тщательного подбора коэффициента редукции для малых датасетов.

Заключение

Наилучшие результаты продемонстрировал метод с SE-блоками, что подтверждает их эффективность для задач инспекции стальной поверхности. Рекомендуется использование SE-блоков в качестве базового решения с последующей оптимизацией под специфику дефектов. Гибридные архитектуры требуют доработки для снижения вычислительной нагрузки.

Список литературы

Redmon J., Farhadi A. YOLOv3: An Incremental Improvement [Электронный ресурс]. – arXiv, 2018. – URL: https://arxiv.org/abs/1804.02767 (дата обращения: 15.12.2024)
He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Las Vegas, NV, USA, 2016. – P. 770-778
Lin T.-Y., Goyal P., Girshick R., He K., Dollar P. Focal Loss for Dense Object Detection / Proceedings of the IEEE International Conference on Computer Vision (ICCV). – Venice, Italy, 2017. – P. 2980–2988
Hu J., Shen L., Albanie S., Sun G., Wu E. Squeeze-and-Excitation Networks / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Salt Lake City, UT, USA, 2018. – P. 7132-7141
Woo S., Park J., Lee J.-Y., Kweon I.S. CBAM: Convolutional Block Attention Module / Proceedings of the European Conference on Computer Vision (ECCV). – Munich, Germany, 2018. – P. 3-19
Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Advances in Neural Information Processing Systems (NeurIPS). – Montreal, Canada, 2015. – P. 91-99