Журнал «Научный лидер» выпуск #23 (276), Июнь ‘26

ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНОВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ

Авторы публикации

Васильев Александр АндреевичЗахарова Оксана Игоревна

Рубрика

IT-Технологии

Просмотры

Журнал

Журнал «Научный лидер» выпуск # 23 (276), Июнь ‘26

В статье рассматриваются вопросы основных принципов работы глубоких нейронных сетей в задачах распознавания объектов на изображениях, существующие архитектуры и методы их применения, а также преимущества и ограничения данного подхода.

Глубокие нейронные сети (Deep Neural Networks, DNN) представляют собой сложные модели машинного обучения, состоящие из множества слоев нейронов. Эти модели способны обрабатывать большие объемы данных и выделять из них полезную информацию. Каждый нейрон в сети принимает входные данные, преобразует их с помощью весов и функций активации, а затем передает результат на следующий слой.

Основными компонентами глубоких нейронных сетей являются:

Входной слой: Принимает исходные данные, которые необходимо обработать.
Скрытые слои: Включают множество нейронов, каждый из которых выполняет определенные вычисления. Именно скрытые слои позволяют сети "обучаться" и выявлять закономерности в данных.
Выходной слой: Представляет собой конечный результат работы сети, который может быть использован для классификации или регрессии.

Целью настоящей статьи является исследование главных принципов действия глубоких нейросетей применительно к задаче поиска объектов на фото- и видеоизображениях, описание существующих шаблонов построения сетей и практик их задействования, а также рассмотрение преимуществ и ограничений, присущих данному методу.Глубокие нейронные сети, особенно сверточные нейронные сети, стали стандартом в задачах распознавания объектов на изображениях. Эти сети способны автоматически извлекать признаки из данных, что значительно упрощает процесс разработки систем компьютерного зрения. Одной из первых успешных архитектур глубокого обучения была AlexNet, [1] представленная в 2012 году. Она показала, что использование графических процессоров (GPU) позволяет эффективно обрабатывать большие объемы данных и добиваться высокой точности классификации. В отличие от предшественников, AlexNet имеет восемь слоев, включая пять сверточных и три полносвязных слоя, что позволило ей достигнуть превосходных результатов на конкурсе ImageNet. В 2014 году появилась архитектура VGG, известная своей простой и повторяющейся структурой [2]. Эта сеть состоит из 16 или 19 слоев, что делает ее одной из самых глубоких сетей того времени. Применение малых фильтров размером 3x3 позволяет VGG выделять более точные признаки, что способствует повышению точности распознавания объектов. Сети такого типа активно используются для различных задач компьютерного зрения, включая медицинскую диагностику и анализ видео. Другой важной архитектурой является ResNet, которая представила остаточные соединения (residual connections) [3]. Эти соединения помогают решить проблему затухающего градиента в глубоких сетях, позволяя создавать сети с большим количеством слоев. ResNet может иметь до 152 слоев, что значительно увеличивает ее способность к извлечению сложных признаков. Благодаря этому ResNet демонстрирует превосходные результаты в задачах классификации изображений и широко применяется в различных областях. YOLO (You Only Look Once) — это архитектура, специально предназначенная для одновременной локализации и классификации объектов на изображении [4]. Основное преимущество YOLO заключается в том, что она осуществляет детекцию объектов в реальном времени, что делает её идеальной для применения в таких задачах, как автономное вождение и робототехника. YOLO использует единую сеть для выполнения всех этапов обработки изображения, что значительно ускоряет процесс и повышает его эффективность. Обучение глубоких нейронных сетей для распознавания объектов происходит с использованием метода обратного распространения ошибки и градиентного спуска. На первом этапе данные проходят через сеть, и на выходном слое формируется предсказание[5]. Затем сравнивается предсказание с истинными метками данных, и вычисляется функция потерь, которая показывает, насколько сильно предсказание отличается от правильного ответа. После этого производится обратное распространение ошибки, чтобы скорректировать веса сети и минимизировать функцию потерь. Этот процесс повторяется множество раз на протяжении нескольких эпох, пока модель не достигнет необходимой точности. Для повышения качества обучения используются различные техники, такие как регуляризация и дропаут. Регуляризация помогает предотвратить переобучение модели, ограничивая значения весов. Дропаут же случайным образом отключает часть нейронов на каждом шаге обучения, что также способствует предотвращению переобучения и улучшению обобщающей способности модели. Выбор подходящих гиперпараметров, таких как скорость обучения, количество эпох и размер батча, также играет ключевую роль в достижении высокой точности распознавания объектов.

Таким образом, глубокие нейронные сети предлагают мощный инструмент для решения задач распознавания объектов на изображениях. Различные архитектуры, такие как AlexNet, VGG, ResNet и YOLO, демонстрируют высокую эффективность и находят широкое применение в различных отраслях. Методы обучения и оптимизации позволяют достичь высокой точности и надежности моделей, что делает их незаменимыми в современных системах компьютерного зрения.

Список литературы

1. Neurohive: [сайт]. – Санкт-Петербург, 2018. – URL: https://neurohive.io/ru/vidy-nejrosetej/alexnet-svjortochnaja-nejronnaja-set-dlja-raspoznavanija-izobrazhenij. Текст. Изображение: электронные.
2. Neurohive: [сайт]. – Санкт-Петербург, 2018. – URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16-model. Текст. Изображение: электронные.
3. Машинное и глубокое обучение Онлайн-учебник Вмктор Владимирович Китов: [сайт]. – Москва, 2023. – URL: https://deepmachinelearning.ru/docs/Neural-networks/Convolutional-architectures/ResNet. Текст. Изображение: электронные.
4. Машинное и глубокое обучение Онлайн-учебник Вмктор Владимирович Китов: [сайт]. – Москва, 2023. – URL: https://deepmachinelearning.ru/docs/Neural-networks/Object-detection/YOLO. Текст. Изображение: электронные.
TensorFlow Documentation [Электронный ресурс]. — URL: https://www.tensorflow.org