Журнал «Научный лидер» выпуск #24 (277), Июнь ‘26

ИСПОЛЬЗОВАНИЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ И ИНТЕЛЛЕКТУАЛЬНОГО АССИСТЕНТА НА ОСНОВЕ RAG В СИСТЕМАХ МОНИТОРИНГА ПРОИЗВОДСТВЕННЫХ ПРОЦЕССОВ

Авторы публикации

Хоснутдинов Михаил ЕвгеньевичВасильев Александр Андреевич

Рубрика

Информационные технологии

Просмотры

Журнал

Журнал «Научный лидер» выпуск # 24 (277), Июнь ‘26

В статье рассматривается применение методов компьютерного зрения и технологии Retrieval-Augmented Generation (RAG) для построения интеллектуальных систем мониторинга производственных процессов. Целью исследования является систематизация подходов к интеграции визуального анализа данных в реальном времени и диалогового ассистента с верифицируемыми ссылками на техническую документацию. Рассмотрены нейросетевые детекторы дефектов (YOLO, Faster R-CNN, CLIP), методы потоковой обработки видеоданных (Apache Kafka, Apache Flink), а также технология RAG с акцентом на обязательное цитирование источников. Предложена архитектура системы, в которой модуль компьютерного зрения обнаруживает отклонения в реальном времени, а RAG-ассистент предоставляет оператору релевантные регламенты и инструкции по устранению выявленных нарушений со ссылкой на конкретный документ и страницу. Показано, что совместное применение обоих компонентов сокращает время реакции персонала на нештатные ситуации и снижает зависимость от экспертных знаний конкретных специалистов.

1. ВВЕДЕНИЕ

Автоматизация контроля качества в производственных системах является одним из ключевых направлений цифровой трансформации промышленных предприятий. Традиционные методы визуального осмотра продукции характеризуются субъективностью и высокими трудозатратами, что ведёт к пропуску дефектов и производственным потерям [1]. Методы компьютерного зрения позволяют автоматизировать инспекцию, обрабатывая видеопоток в режиме реального времени с производительностью, недостижимой для оператора-человека.

Вместе с тем обнаружение дефекта не решает задачу полностью: оператор должен оперативно найти в нормативно-технической документации регламент реагирования на выявленное отклонение. Технология Retrieval-Augmented Generation (RAG) [2] позволяет построить интеллектуальный ассистент, мгновенно предоставляющий оператору релевантный фрагмент инструкции с указанием источника. Целью настоящей статьи является обзор применимых методов компьютерного зрения и анализ возможности их совместной интеграции с RAG-ассистентом в единой промышленной информационной системе.

2. МЕТОДЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ ДЕФЕКТОВ

Классические алгоритмы на базе OpenCV — бинаризация по порогу Оцу, морфологические операции, анализ связных компонент — обеспечивают высокую скорость вывода без обучающих данных, однако плохо справляются с изменчивым освещением [3]. Свёрточные нейронные сети (ResNet, EfficientNet) существенно повысили точность классификации дефектов, но не обеспечивают их локализацию в кадре.

Детекторы семейства YOLO [4] обеспечивают одновременно высокую скорость вывода (более 30 кадров в секунду на GPU среднего класса) и точную локализацию дефектов с помощью ограничивающих прямоугольников. Двухступенчатые детекторы (Faster R-CNN [5]) обеспечивают более высокую точность, однако уступают по скорости. Мультимодальные модели CLIP [6] открывают перспективу few-shot обнаружения новых классов дефектов по текстовому описанию, что важно для производств с частой сменой номенклатуры, однако пока ограничены в применении в реальном времени.

3. ОБРАБОТКА ВИДЕОПОТОКА В РЕАЛЬНОМ ВРЕМЕНИ И ТЕХНОЛОГИЯ RAG

Типовой конвейер обработки видеопотока включает захват кадров (GStreamer, FFmpeg), предобработку, вывод модели детекции и постобработку результатов. Для передачи данных между компонентами под высокой нагрузкой применяется Apache Kafka [7], а агрегация скользящей статистики реализуется средствами Apache Flink. Ускорение вывода нейросетевых моделей достигается оптимизацией в форматах ONNX или TensorRT — латентность сокращается в 2–4 раза по сравнению с исходной реализацией на PyTorch.

Технология RAG решает задачу интеллектуального поиска по технической документации путём двухэтапного процесса: семантического поиска релевантных фрагментов в векторной базе данных и генерации ответа языковой моделью на основе найденных фрагментов [2]. Для промышленного применения критически важным требованием является обязательное цитирование источников: оператор должен видеть конкретный документ, раздел и страницу, на которых основан ответ ассистента [8]. Оркестрация взаимодействия компонентов RAG-системы реализуется средствами фреймворка LangChain [9].

4. АРХИТЕКТУРА ИНТЕГРИРОВАННОЙ СИСТЕМЫ

Система состоит из трёх уровней. Уровень сбора данных включает промышленные видеокамеры стандарта GigE Vision и датчики технологических параметров, передающие данные через OPC UA в брокер Apache Kafka. Уровень обработки реализован как набор микросервисов: сервис компьютерного зрения выполняет вывод модели YOLOv8 и публикует структурированные события обнаружения дефектов (класс, координаты, уверенность, временна́я метка), сервис агрегации на базе Flink генерирует алерты при превышении пороговых значений.

Уровень взаимодействия с оператором реализован через веб-интерфейс, отображающий видеопоток с разметкой дефектов и панель RAG-ассистента. При получении алерта система автоматически формирует запрос к ассистенту и отображает оператору найденный фрагмент инструкции со ссылкой на документ. Подготовка базы знаний предполагает конвертацию технических PDF-документов в текст, разбивку на смысловые фрагменты с перекрытием, генерацию эмбеддингов (multilingual-e5-large) и индексацию в векторном хранилище FAISS.

5. СРАВНЕНИЕ ПОДХОДОВ К КОМПЬЮТЕРНОМУ ЗРЕНИЮ

Таблица 1 — Сравнение подходов к обнаружению производственных дефектов

Критерий	Классические алгоритмы (OpenCV)	CNN-классификаторы (ResNet)	Детекторы объектов (YOLOv8)	Мультимодальные модели (CLIP)
Скорость вывода	Очень высокая	Высокая	Высокая (real-time)	Низкая–средняя
Объём обучающих данных	Не требуется	Большой (>10 000)	Средний (>1 000)	Малый (few-shot)
Локализация дефектов	Ограниченная	Отсутствует	Да (bounding box)	Частичная
Адаптация к новым дефектам	Ручная	Переобучение	Переобучение	Промпт / few-shot
Интеграция с RAG	Затруднена	Средняя	Хорошая	Нативная
Применимость в реальном времени	Да	Да	Да	Нет

Из данных таблицы 1 следует, что детекторы семейства YOLO обеспечивают наилучший баланс между скоростью вывода, точностью локализации и совместимостью с RAG-системой для большинства промышленных задач.

Список литературы

1. Schmitt R., Pfeifer T. Qualitätsmanagement: Strategien, Methoden, Techniken. München: Hanser, 2015. 556 S. 2. Lewis P., Perez E., Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. 2020. Vol. 33. P. 9459–9474. 3. Bradski G., Kaehler A. Learning OpenCV 4: Computer Vision with Python 3. Sebastopol: O'Reilly Media, 2019. 1024 p. 4. Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788. 5. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. Vol. 39, № 6. P. 1137–1149. 6. Radford A., Kim J. W., Hallacy C. et al. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the 38th ICML. 2021. P. 8748–8763. 7. Kreps J., Narkhede N., Rao J. Kafka: A Distributed Messaging System for Log Processing // Proceedings of the NetDB Workshop at SIGMOD. 2011. P. 1–7. 8. Gao Y., Xiong Y., Gao X. et al. Retrieval-Augmented Generation for Large Language Models: A Survey // arXiv preprint arXiv:2312.10997. 2023. 9. Chase H. LangChain [Электронный ресурс]. 2022. URL: https://github.com/langchain-ai/langchain (дата обращения: 01.06.2025).