Введение
Контроль качества стальной поверхности является критически важной задачей в металлургической промышленности. Традиционные методы визуального осмотра обладают низкой эффективностью из-за субъективности и высокой трудоёмкости. Современные системы компьютерного зрения на основе глубокого обучения, такие как YOLO и Faster R-CNN, позволяют автоматизировать процесс, однако их точность ограничена при работе с низкоконтрастными и мелкими дефектами [1].
В последние годы механизмы внимания, включая Squeeze-and-Excitation (SE) и Convolutional Block Attention Module (CBAM), стали активно применяться для улучшения выразительности признаков в задачах компьютерного зрения [2, 3]. Их интеграция в детекторы объектов может повысить точность локализации дефектов, однако подобные модификации требуют тщательного анализа влияния на архитектуру и вычислительную нагрузку.
Целью данного исследования является проведение сравнительного анализа методов улучшения детекции дефектов стальной поверхности, включая SE-блоки, CBAM, гибридные архитектуры на основе Faster R-CNN, а также использование YOLOv9-s в качестве Region Proposal Network (RPN).
Squeeze-and-Excitation (SE) блок
SE-блок, предложенный в работе Hu et al. [4], реализует механизм каналового внимания, который усиливает каналы, отвечающие за ключевые признаки объекта. На этапе сжатия (squeeze) глобальный средний пулинг (pulling) агрегирует пространственную информацию в вектор каналов. На этапе возбуждения (excitation) два полносвязных слоя с нелинейными активациями перераспределяют значимость каналов. Внедрение SE-блоков в YOLOv9-s (рис. 1) увеличило количество параметров модели на 0.04 млн при сохранении вычислительной эффективности (38.8 GFLOPs).
Рисунок 1. Внедрение SE-блоков в YOLOv9-s
Convolutional Block Attention Module (CBAM)
CBAM [5] комбинирует каналовое и пространственное внимание. Каналовый модуль использует глобальный средний и максимальный пулинг, а пространственный — свёртку 7×7 для выделения значимых областей. Несмотря на гибкость подхода, интеграция CBAM в YOLOv9-s привела к избыточному росту параметров (9.86 млн) и снижению mAP50 до 0.589, что свидетельствует о переобучении на малом датасете.
Гибридная архитектура с Faster R-CNN Head
Замена стандартной головы YOLO на модуль Faster R-CNN [6] позволила разделить задачи генерации регионов и их классификации. Реализация RPN с якорями, адаптированными под геометрию дефектов, улучшила mAP50 до 0.851. Однако двухэтапная обработка увеличила время инференса, что ограничивает промышленное применение.
YOLOv9-s в качестве RPN
Метод основан на двухэтапной архитектуре, где первый этап — это использование модели YOLOv9-s для генерации регионов интереса (Region of Interest, ROI). Эта модель быстро и эффективно выделяет потенциальные области с дефектами на изображении. После детекции регионов интереса данные передаются на второй этап — отдельный модуль классификации, который уточняет принадлежность выявленных областей к определённым классам дефектов. Использование YOLOv9-s для генерации регионов интереса с последующей классификацией в отдельном модуле показало высокую скорость обучения (0.253 часа) и эффективность для детекции окалины (mAP50 = 0.879). Однако метод уступил в точности для класса "пятна" из-за слабой адаптации к неоднородным текстурам.
Результаты исследования
Эксперименты проводились на датасете из 133 изображений (1152 экземпляра дефектов) с использованием оптимизаторов AdamW и SGD. Наивысшие метрики достигнуты при внедрении SE-блоков: mAP50 = 0.879, mAP50-95 = 0.505. Для класса "царапины" точность составила 0.932, что объясняется усилением границ за счёт каналового внимания. Основные результаты метрик представлены в таблице 1.
Таблица 1.
Ключевые метрики
Метод |
mAP50 (all) |
mAP50-95 (all) |
Время обучения (ч) |
Параметры (M) |
SE блок |
0.879 |
0.505 |
3.181 |
9.64 |
CBAM |
0.589 |
0.255 |
2.942 |
9.86 |
R-CNN |
0.851 |
0.475 |
2.874 |
9.60 |
RPN |
0.826 |
0.443 |
0.253 |
9.60 |
Гибридный подход с Faster R-CNN улучшил локализацию (mAP50 = 0.851), но уступил SE-блокам из-за повышенной сложности. CBAM показал наименьшую эффективность, что согласуется с выводами Woo et al. [5] о необходимости тщательного подбора коэффициента редукции для малых датасетов.
Заключение
Наилучшие результаты продемонстрировал метод с SE-блоками, что подтверждает их эффективность для задач инспекции стальной поверхности. Рекомендуется использование SE-блоков в качестве базового решения с последующей оптимизацией под специфику дефектов. Гибридные архитектуры требуют доработки для снижения вычислительной нагрузки.
Список литературы
- Redmon J., Farhadi A. YOLOv3: An Incremental Improvement [Электронный ресурс]. – arXiv, 2018. – URL: https://arxiv.org/abs/1804.02767 (дата обращения: 15.12.2024)
- He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Las Vegas, NV, USA, 2016. – P. 770-778
- Lin T.-Y., Goyal P., Girshick R., He K., Dollar P. Focal Loss for Dense Object Detection / Proceedings of the IEEE International Conference on Computer Vision (ICCV). – Venice, Italy, 2017. – P. 2980–2988
- Hu J., Shen L., Albanie S., Sun G., Wu E. Squeeze-and-Excitation Networks / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Salt Lake City, UT, USA, 2018. – P. 7132-7141
- Woo S., Park J., Lee J.-Y., Kweon I.S. CBAM: Convolutional Block Attention Module / Proceedings of the European Conference on Computer Vision (ECCV). – Munich, Germany, 2018. – P. 3-19
- Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Advances in Neural Information Processing Systems (NeurIPS). – Montreal, Canada, 2015. – P. 91-99