1. ВВЕДЕНИЕ
Автоматизация контроля качества в производственных системах является одним из ключевых направлений цифровой трансформации промышленных предприятий. Традиционные методы визуального осмотра продукции характеризуются субъективностью и высокими трудозатратами, что ведёт к пропуску дефектов и производственным потерям [1]. Методы компьютерного зрения позволяют автоматизировать инспекцию, обрабатывая видеопоток в режиме реального времени с производительностью, недостижимой для оператора-человека.
Вместе с тем обнаружение дефекта не решает задачу полностью: оператор должен оперативно найти в нормативно-технической документации регламент реагирования на выявленное отклонение. Технология Retrieval-Augmented Generation (RAG) [2] позволяет построить интеллектуальный ассистент, мгновенно предоставляющий оператору релевантный фрагмент инструкции с указанием источника. Целью настоящей статьи является обзор применимых методов компьютерного зрения и анализ возможности их совместной интеграции с RAG-ассистентом в единой промышленной информационной системе.
2. МЕТОДЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ ДЕФЕКТОВ
Классические алгоритмы на базе OpenCV — бинаризация по порогу Оцу, морфологические операции, анализ связных компонент — обеспечивают высокую скорость вывода без обучающих данных, однако плохо справляются с изменчивым освещением [3]. Свёрточные нейронные сети (ResNet, EfficientNet) существенно повысили точность классификации дефектов, но не обеспечивают их локализацию в кадре.
Детекторы семейства YOLO [4] обеспечивают одновременно высокую скорость вывода (более 30 кадров в секунду на GPU среднего класса) и точную локализацию дефектов с помощью ограничивающих прямоугольников. Двухступенчатые детекторы (Faster R-CNN [5]) обеспечивают более высокую точность, однако уступают по скорости. Мультимодальные модели CLIP [6] открывают перспективу few-shot обнаружения новых классов дефектов по текстовому описанию, что важно для производств с частой сменой номенклатуры, однако пока ограничены в применении в реальном времени.
3. ОБРАБОТКА ВИДЕОПОТОКА В РЕАЛЬНОМ ВРЕМЕНИ И ТЕХНОЛОГИЯ RAG
Типовой конвейер обработки видеопотока включает захват кадров (GStreamer, FFmpeg), предобработку, вывод модели детекции и постобработку результатов. Для передачи данных между компонентами под высокой нагрузкой применяется Apache Kafka [7], а агрегация скользящей статистики реализуется средствами Apache Flink. Ускорение вывода нейросетевых моделей достигается оптимизацией в форматах ONNX или TensorRT — латентность сокращается в 2–4 раза по сравнению с исходной реализацией на PyTorch.
Технология RAG решает задачу интеллектуального поиска по технической документации путём двухэтапного процесса: семантического поиска релевантных фрагментов в векторной базе данных и генерации ответа языковой моделью на основе найденных фрагментов [2]. Для промышленного применения критически важным требованием является обязательное цитирование источников: оператор должен видеть конкретный документ, раздел и страницу, на которых основан ответ ассистента [8]. Оркестрация взаимодействия компонентов RAG-системы реализуется средствами фреймворка LangChain [9].
4. АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ СИСТЕМЫ
Система состоит из трёх уровней. Уровень сбора данных включает промышленные видеокамеры стандарта GigE Vision и датчики технологических параметров, передающие данные через OPC UA в брокер Apache Kafka. Уровень обработки реализован как набор микросервисов: сервис компьютерного зрения выполняет вывод модели YOLOv8 и публикует структурированные события обнаружения дефектов (класс, координаты, уверенность, временна́я метка), сервис агрегации на базе Flink генерирует алерты при превышении пороговых значений.
Уровень взаимодействия с оператором реализован через веб-интерфейс, отображающий видеопоток с разметкой дефектов и панель RAG-ассистента. При получении алерта система автоматически формирует запрос к ассистенту и отображает оператору найденный фрагмент инструкции со ссылкой на документ. Подготовка базы знаний предполагает конвертацию технических PDF-документов в текст, разбивку на смысловые фрагменты с перекрытием, генерацию эмбеддингов (multilingual-e5-large) и индексацию в векторном хранилище FAISS.
5. СРАВНЕНИЕ ПОДХОДОВ К КОМПЬЮТЕРНОМУ ЗРЕНИЮ
Таблица 1 — Сравнение подходов к обнаружению производственных дефектов
| Критерий | Классические алгоритмы (OpenCV) | CNN-классификаторы (ResNet) | Детекторы объектов (YOLOv8) | Мультимодальные модели (CLIP) |
| Скорость вывода | Очень высокая | Высокая | Высокая (real-time) | Низкая–средняя |
| Объём обучающих данных | Не требуется | Большой (>10 000) | Средний (>1 000) | Малый (few-shot) |
| Локализация дефектов | Ограниченная | Отсутствует | Да (bounding box) | Частичная |
| Адаптация к новым дефектам | Ручная | Переобучение | Переобучение | Промпт / few-shot |
| Интеграция с RAG | Затруднена | Средняя | Хорошая | Нативная |
| Применимость в реальном времени | Да | Да | Да | Нет |
Из данных таблицы 1 следует, что детекторы семейства YOLO обеспечивают наилучший баланс между скоростью вывода, точностью локализации и совместимостью с RAG-системой для большинства промышленных задач.
Список литературы
- 1. Schmitt R., Pfeifer T. Qualitätsmanagement: Strategien, Methoden, Techniken. München: Hanser, 2015. 556 S. 2. Lewis P., Perez E., Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. 2020. Vol. 33. P. 9459–9474. 3. Bradski G., Kaehler A. Learning OpenCV 4: Computer Vision with Python 3. Sebastopol: O'Reilly Media, 2019. 1024 p. 4. Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788. 5. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. Vol. 39, № 6. P. 1137–1149. 6. Radford A., Kim J. W., Hallacy C. et al. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the 38th ICML. 2021. P. 8748–8763. 7. Kreps J., Narkhede N., Rao J. Kafka: A Distributed Messaging System for Log Processing // Proceedings of the NetDB Workshop at SIGMOD. 2011. P. 1–7. 8. Gao Y., Xiong Y., Gao X. et al. Retrieval-Augmented Generation for Large Language Models: A Survey // arXiv preprint arXiv:2312.10997. 2023. 9. Chase H. LangChain [Электронный ресурс]. 2022. URL: https://github.com/langchain-ai/langchain (дата обращения: 01.06.2025).


