Журнал «Научный лидер» выпуск #50 (251), Декабрь ‘25

АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ ИНФОРМАЦИОННЫМИ ПОТОКАМИ В СИСТЕМАХ БОЛЬШИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Авторы публикации

Плотникова Кристина Артёмовна

Рубрика

Информационные технологии

Просмотры

328

Журнал

Журнал «Научный лидер» выпуск # 50 (251), Декабрь ‘25

В статье рассматривается задача автоматизации управления информационными потоками в системах больших данных, функционирующих в потоковом режиме. Показано, что устойчивость и производительность таких систем в значительной степени определяются эффективностью распределения вычислительных ресурсов в кластере. Рассматривается архитектура совместного использования ApacheSpark и Kubernetes как основа для построения адаптивной инфраструктуры потоковой обработки. Предлагается формализация системы в виде контура управления с обратной связью, где метрики мониторинга выступают наблюдаемыми величинами, а параметры конфигурации вычислительного движка и оркестратора ресурсов выступают управляющими воздействиями. Описан алгоритм адаптивной настройки ресурсов, основанный на прогнозировании нагрузки и методах машинного обучения. Определены критерии эффективности и рассмотрены ограничения предлагаемого подхода.

искусственный интеллект

большие данные

управление ресурсами

Kubernetes

потоковая обработка

распределенные вычисления

ApacheSpark

Системы больших данных все чаще функционируют в потоковом режиме, при котором события поступают непрерывно и должны обрабатываться с ограничениями по задержке и полноте. В подобных условиях качество функционирования определяется не только алгоритмами анализа, но и тем, насколько эффективно организовано распределение вычислительных ресурсов. При всплесках нагрузки именно инфраструктура становится фактором, ограничивающим пропускную способность и устойчивость обработки.

В современных архитектурах широко применяется связка ApacheSpark и Kubernetes. Spark задает модель распределенных вычислений и отвечает за разбиение обработки на этапы и задачи, тогда как Kubernetes обеспечивает управление ресурсами кластера, размещение контейнеров и масштабирование. При отсутствии согласованной настройки этих уровней возможно снижение производительности и рост задержек, что делает актуальной задачу автоматизированного управления параметрами системы.

Потоковая обработка характеризуется высокой нестационарностью нагрузки. Интенсивность входных данных может резко изменяться под воздействием внешних факторов, что приводит к росту очередей и увеличению задержек. Для поддержания устойчивости система должна не только реагировать на текущие значения метрик, но и учитывать ожидаемое изменение нагрузки.

ApacheSpark реализует модель распределенной обработки через управляющий процесс и набор исполнителей. Управляющий процесс формирует план вычислений, а исполнители выполняют задачи в рамках выделенных ресурсов. К параметрам, оказывающим наибольшее влияние на потоковую обработку, относятся количество исполнителей, число ядер и объем памяти на исполнителя, а также параметры параллелизма и обработки состояния.

Kubernetes предоставляет абстракцию кластера как единого пула ресурсов и реализует механизм запросов и ограничений по процессорному времени и памяти. Некорректная настройка этих параметров приводит либо к неэффективной утилизации ресурсов, либо к конкуренции приложений и аварийному завершению контейнеров. Для потоковых задач особенно критичны перезапуски, так как они увеличивают задержку и усложняют восстановление состояния.

Предлагается рассматривать систему Spark на Kubernetes как контур управления с обратной связью. В качестве наблюдаемых величин используются показатели входной интенсивности, задержки обработки, отставания потока, загрузки ресурсов и частоты ошибок. Управляющими воздействиями выступают параметры конфигурации Spark и политики выделения ресурсов в Kubernetes. Целевая функция формулируется как минимизация задержки и отставания при ограничении суммарного потребления ресурсов.

Для реализации адаптивного управления предлагается алгоритм, включающий блок прогнозирования нагрузки и блок выбора управляющих воздействий. Прогнозирование осуществляется на основе анализа временных рядов метрик мониторинга. На основе текущего состояния и прогноза выбираются действия по масштабированию и настройке параметров, либо на основе обучаемых правил, либо с использованием обучения с подкреплением. Такой подход позволяет заранее подготавливать инфраструктуру к ожидаемым пиковым нагрузкам и повышать предсказуемость работы системы.

Эффективность предложенного подхода оценивается по показателям задержки, отставания потока, устойчивости выполнения и утилизации ресурсов. Отмечается, что ключевым преимуществом является снижение зависимости от ручной настройки и возможность адаптации к изменяющимся условиям эксплуатации.

Заключение

Автоматизация управления информационными потоками в системах больших данных требует согласованного подхода к управлению вычислительными ресурсами и параметрами распределенной обработки. В работе показано, что совместное использование ApacheSpark и Kubernetes может быть эффективно представлено в виде контура управления с обратной связью. Предложенный алгоритм адаптивной настройки, основанный на прогнозировании нагрузки и методах искусственного интеллекта, позволяет повысить устойчивость потоковой обработки и улучшить использование ресурсов. Дальнейшие исследования связаны с экспериментальной верификацией подхода и расширением модели на многосервисные среды.

Список литературы

Apache Spark Documentation. Cluster Mode Overview [Электронный ресурс]. – Режим доступа: https://spark.apache.org/docs/latest/cluster-overview.html (дата обращения: 09.11.2025)
Kubernetes Documentation. Resource Management and Scheduling [Электронный ресурс]. – Режим доступа: https://kubernetes.io/docs/concepts/configuration/manage-resources-containers/ (дата обращения: 09.11.2025)
Kubernetes Documentation. Horizontal Pod Autoscaling [Электронный ресурс]. – Режим доступа: https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/ (дата обращения: 09.11.2025)
Zaharia, M., Chowdhury, M., Franklin, M. J., Shenker, S., Stoica, I. Apache Spark: a unified engine for big data processing // Communications of the ACM. – 2016. – Vol. 59, No. 11. – P. 56–65
Burns, B., Beda, J., Hightower, K. Kubernetes: Up and Running. – Sebastopol: O’Reilly Media, 2019. – 276 p.