Введение
Задержки рейсов остаются одной из самых острых проблем гражданской авиации. Они напрямую влияют на экономические показатели авиакомпаний, на лояльность пассажиров и на пропускную способность аэропортов. По данным европейской организации Eurocontrol, в 2024 году средняя задержка вылета в зоне ECAC по всем причинам составила 17,5 минут на рейс, тогда как пунктуальность прибытия в пределах 15-минутного окна расписания зафиксирована на уровне 72,4 % [1].
По различным оценкам, около 20 % коммерческих рейсов в мире прибывают с задержкой свыше 15 минут [2]. Совокупные потери, связанные с этим, исчисляются десятками миллиардов долларов в год. Такие масштабы делают задачу заблаговременного прогнозирования задержек одним из приоритетных направлений развития автоматизированных систем управления на воздушном транспорте.
Классические статистические модели временных рядов плохо справляются с нелинейными зависимостями, существующими между расписанием, погодными условиями, загруженностью воздушного пространства и характеристиками воздушных судов. Методы машинного обучения дают здесь существенное преимущество за счёт способности извлекать сложные закономерности из больших объёмов разнородных данных [2, 3].
В настоящей работе ставится цель провести сравнительный обзор современных алгоритмов машинного обучения, применяемых для прогнозирования задержек рейсов, и обозначить перспективы их интеграции в АСУ авиапредприятия. К числу решаемых задач относятся: классификация постановок задачи прогнозирования; описание признакового пространства; обзор и сопоставление алгоритмов; рассмотрение иллюстративного сценария применения; формулировка направлений практической реализации.
1. Задержка рейса как объект прогнозирования
В отраслевой практике рейс считается выполненным по расписанию при условии, что фактическое время отправления или прибытия отличается от планового не более чем на 15 минут. Этот пятнадцатиминутный порог не закреплён в качестве формального стандарта ИКАО, но фактически используется как универсальный отраслевой индикатор пунктуальности (on-time performance, OTP) Eurocontrol, IATA, OAG и национальными ведомствами [1, 4].
Для классификации причин задержек применяется стандарт IATA из раздела AHM 730 «Airport Handling Manual», впервые введённый в 1980-х годах. Стандарт содержит более 80 двухзначных числовых кодов и разделяет причины на укрупнённые группы: пассажирские операции, обработка груза и багажа, технические причины, метеорологические причины, ограничения управления воздушным движением (ATFM), эксплуатационные ограничения аэропорта, последствия предыдущих рейсов (так называемые задержки реакции, knock-on) и прочие [4]. Параллельно с 42-го издания AHM IATA вводит новую схему AHM 732, где двухзначные коды заменяются трёхбуквенными формата «процесс / причина / заинтересованная сторона» (AAA). Согласно дорожной карте IATA, AHM 730/731 будет применяться до 43-го издания, AHM 732 станет основным стандартом начиная с 44-го издания [4].
С точки зрения машинного обучения задача прогнозирования задержки может быть сформулирована в двух основных вариантах. Во-первых, как задача классификации, в которой определяется факт задержки, превышающей заданный порог (например, 15 минут), с возможной градацией по интервалам. Во-вторых, как задача регрессии, при которой оценивается длительность задержки в минутах как непрерывная величина.
Конкретный выбор постановки определяется требованиями АСУ. Для модулей информирования пассажиров и систем A-CDM практически удобнее регрессионная оценка. Для модулей управления слотами и распределения ресурсов нередко достаточно классификационного подхода [3, 5].
2. Признаковое пространство
Качество прогноза в значительной мере определяется составом и информативностью входных признаков. Анализ литературы [2, 3, 5, 6] позволяет выделить пять основных групп таких признаков. Базовую группу составляют признаки расписания и маршрута: плановое время отправления и прибытия, день недели, месяц, аэропорты вылета и назначения, продолжительность полёта.
Вторая группа описывает само воздушное судно и эксплуатанта (тип ВС, возраст, перевозчик, исторические показатели пунктуальности). Третья группа отражает метеорологическую обстановку через данные METAR и TAF аэропортов вылета и назначения: видимость, направление и скорость ветра, осадки, температура, особые явления погоды.
Четвёртая группа фиксирует эксплуатационную обстановку, в первую очередь загрузку ВПП и перронов, количество одновременных операций, статус предыдущего ротационного рейса того же ВС. Пятую группу составляют сетевые признаки: загруженность воздушного пространства, наличие ограничений ОВД, информация о неблагоприятных явлениях по маршруту.
В работе [3] показано, что включение признаков предыдущего рейса в ротации существенно повышает качество прогноза за счёт учёта эффекта распространения задержек по сети. Эта особенность хорошо согласуется с данными Eurocontrol, согласно которым в 2024 году доля задержек реакции составила около 46 % всего времени задержки на рейс [1]. Метеорологические признаки, в свою очередь, требуют грамотного временного агрегирования (час, три часа), без чего корректное сопоставление с расписанием затруднено [6].
3. Алгоритмы машинного обучения
3.1. Логистическая регрессия. Линейная модель, традиционно используемая в качестве базовой при решении задач бинарной классификации. Простота интерпретации коэффициентов и низкая вычислительная стоимость делают её удобным эталоном (baseline) для сравнения с более сложными алгоритмами. В задачах прогнозирования задержек, где зависимости между признаками нелинейные, логистическая регрессия, как правило, уступает ансамблевым методам по показателям точности [2, 5].
3.2. Случайный лес. Ансамблевый алгоритм, в основе которого лежит построение множества решающих деревьев на бутстрэп-выборках с последующим усреднением их прогнозов. Random Forest хорошо справляется с разнотипными признаками, устойчив к выбросам и не требует масштабирования данных. По данным [6], случайный лес значительно превосходит линейные модели при прогнозировании задержек, вызванных метеорологическими факторами. В работе [7] на основе данных ADS-B и метеорологических данных модель случайного леса достигает наилучших результатов по сравнению с рядом базовых алгоритмов.
3.3. Градиентный бустинг. Семейство ансамблевых алгоритмов (XGBoost, LightGBM, CatBoost), последовательно строящих деревья, каждое из которых корректирует ошибки предыдущего [10, 11, 12]. Реализации CatBoost и LightGBM особенно эффективны при работе с категориальными признаками. Это особенно важно для авиационных данных, содержащих коды аэропортов, типы ВС, коды авиакомпаний. Согласно [3, 5, 7], градиентный бустинг устойчиво показывает наилучшие результаты в большинстве сравнительных исследований по прогнозированию задержек.
3.4. Нейронные сети. Архитектуры на основе многослойных персептронов (MLP), рекуррентных сетей (LSTM, GRU), а в последнее время и трансформеров находят применение прежде всего в задачах, где задержки рассматриваются как временной ряд или как часть сетевой динамики. В работе [3] предложена глубокая модель, объединяющая глубокую сеть доверия (DBN) и регрессию опорных векторов для извлечения сложных закономерностей в высокоразмерных данных аэропорта. Подобные модели требуют значительно больших объёмов данных и вычислительных ресурсов, а также сложнее в интерпретации [5].
Таблица 1.
Обобщённое сопоставление алгоритмов по литературным данным
|
Алгоритм |
Сильные стороны |
Ограничения |
Типичная область применения |
|---|---|---|---|
|
Логистическая регрессия |
Простота, интерпретируемость, низкие требования к ресурсам |
Низкая точность при нелинейных зависимостях |
Базовая модель для сопоставления |
|
Случайный лес |
Устойчивость, работа с разнотипными признаками |
Худшая работа с разреженными признаками; рост модели при больших данных |
Прогноз метеоиндуцированных задержек |
|
Градиентный бустинг (XGBoost, LightGBM, CatBoost) |
Высокая точность, эффективная работа с категориальными признаками |
Чувствительность к настройке гиперпараметров |
Промышленные системы прогнозирования задержек |
|
Нейронные сети (MLP, LSTM, DBN) |
Учёт временных и сетевых зависимостей |
Большие требования к данным и вычислениям, низкая интерпретируемость |
Сетевое и временное прогнозирование |
В подавляющем большинстве сравнительных исследований [2, 3, 5, 6, 7] алгоритмы градиентного бустинга показывают наилучшие результаты по метрикам Accuracy и F1 для задачи бинарной классификации задержки, а также по показателям MAE/RMSE для регрессионной постановки. Глубокие нейронные сети демонстрируют сопоставимые или превосходящие результаты при наличии значительных объёмов данных и сетевых признаков. Однако они уступают по простоте внедрения и интерпретируемости.
4. Иллюстративный пример: прогнозирование задержек в аэропорту Пулково
Рассмотрим гипотетический сценарий построения прогнозного модуля для аэропорта Пулково (LED), интегрируемого в АСУ обработки сообщений о движении воздушных судов. По итогам 2024 года Пулково занимает второе место в России по пассажиропотоку (20,9 млн человек), уступая только Шереметьево [8], что делает его представительной площадкой для апробации подобных систем.
Алгоритмическая основа модуля строится на градиентном бустинге в реализации CatBoost. Этот выбор обусловлен большим количеством категориальных признаков в исходных данных и относительной устойчивостью алгоритма к их предобработке [12].
Источниками данных для обучения служат: исторические сообщения MVT (Movement) и DLA (Delay) за период не менее двух лет; архив METAR и TAF аэропорта Пулково и аэропортов-партнёров; справочники типов ВС и авиакомпаний; данные о среднесуточной загрузке ВПП и перронов. Целевая переменная формируется как бинарная метка превышения 15-минутного порога задержки вылета, а также как непрерывная переменная длительности задержки в минутах.
Признаковое пространство включает расписание и направление, тип и возраст ВС, перевозчика, день недели, месяц, плановый временной слот, агрегированные метеопризнаки на ближайшие три часа, индикатор зимнего периода (потребность в противообледенительной обработке) и статус предыдущего рейса в ротации. Разделение выборки выполняется по временному принципу: обучение на ранних периодах, валидация и тест на поздних. Такое разделение соответствует условиям эксплуатационной работы модели.
В качестве оцениваемых метрик целесообразно использовать Accuracy, Precision, Recall, F1-меру для классификационной постановки, а также MAE, RMSE, MAPE для регрессионной. Конкретные числовые значения метрик определяются качеством и объёмом доступных данных и в данной работе не приводятся, поскольку реальное обучение модели не выполнялось.
5. Применение в АСУ авиапредприятия
Прогнозный модуль может быть встроен в существующие подсистемы АСУ аэропорта и авиакомпании по нескольким направлениям. Прежде всего прогнозы задержек на горизонте от 30 минут до нескольких часов используются в процедурах A-CDM (Airport Collaborative Decision Making) для уточнения целевых времён off-block и формирования согласованного плана наземного обслуживания [9]. Кроме того, информация о вероятной задержке передаётся в системы информирования пассажиров и обработки бронирований для своевременной реакции по стыковочным рейсам.
Внедрение процедур A-CDM в России находится на начальной стадии. В декабре 2024 года в аэропорту Внуково совместно с Московским центром АУВД проведено тестовое внедрение системы A-CDM, по результатам которого сформирована рабочая группа для полноценного развёртывания в 2025 году [13]. В феврале 2025 года между аэропортами Внуково и Пулково заключено соглашение об информационном сотрудничестве, предусматривающее создание единой информационной основы для процедур A-CDM на базе системного интегратора «Авиапортал» [14]. Эти инициативы создают практическую базу для интеграции прогнозных моделей задержек в действующие АСУ российских аэропортов.
В авиакомпании прогнозные оценки задержек могут использоваться для управления резервами экипажей, планирования технического обслуживания и оптимизации ротаций ВС. Интеграция модели в существующий контур АСУ требует решения ряда инженерных задач. К ним относятся: организация регулярного дообучения на актуальных данных, мониторинг качества прогнозов в эксплуатации (drift detection), обеспечение интерпретируемости прогнозов для диспетчерского персонала.
Заключение
Проведённый обзор показывает, что задача прогнозирования задержек рейсов на современном этапе развития АСУ воздушного транспорта эффективно решается методами машинного обучения. Алгоритмы градиентного бустинга формируют практический стандарт благодаря балансу точности, скорости обучения и работы с категориальными признаками. Глубокие нейронные сети расширяют возможности моделирования при наличии больших объёмов данных и сетевых признаков. Дальнейшее развитие направления связано с интеграцией прогнозных модулей в процедуры A-CDM, которые в России активно развёртываются с конца 2024 года, а также с повышением интерпретируемости моделей и применением методов сетевого моделирования для учёта эффекта распространения задержек.
Список литературы
- 1. EUROCONTROL CODA Digest. All-Causes Delays to Air Transport in Europe. Annual 2024 / EUROCONTROL Network Manager. Brussels, 2025. URL: https://www.eurocontrol.int/publication/all-causes-delays-air-transport-europe-annual-2024 (дата обращения: 09.05.2026).
- 2. Belcastro L., Marozzo F., Talia D., Trunfio P. Using Scalable Data Mining for Predicting Flight Delays // ACM Transactions on Intelligent Systems and Technology. 2016. Vol. 8, Iss. 1. Article 5. P. 1–20. DOI: 10.1145/2888402.
- 3. Yu B., Guo Z., Asian S., Wang H., Chen G. Flight delay prediction for commercial air transport: A deep learning approach // Transportation Research Part E: Logistics and Transportation Review. 2019. Vol. 125. P. 203–221. DOI: 10.1016/j.tre.2019.03.013.
- 4. IATA Airport Handling Manual (AHM). Sect. 730 (Codes to be used in aircraft movement and diversion messages); Sect. 732 (Process / Reason / Stakeholder delay coding). International Air Transport Association, Montreal, Geneva, 2025.
- 5. Carvalho L., Sternberg A., Maia Gonçalves L., Cruz A.B., Soares J.A., Brandão D., Carvalho D., Ogasawara E. On the relevance of data science for flight delay research: a systematic review // Transport Reviews. 2021. Vol. 41, No. 4. P. 499–528. DOI: 10.1080/01441647.2020.1861123.
- 6. Choi S., Kim Y.J., Briceno S., Mavris D. Prediction of weather-induced airline delays based on machine learning algorithms // 2016 IEEE/AIAA 35th Digital Avionics Systems Conference (DASC). IEEE, 2016. P. 1–6. DOI: 10.1109/DASC.2016.7777956.
- 7. Gui G., Liu F., Sun J., Yang J., Zhou Z., Zhao D. Flight Delay Prediction Based on Aviation Big Data and Machine Learning // IEEE Transactions on Vehicular Technology. 2020. Vol. 69, No. 1. P. 140–150. DOI: 10.1109/TVT.2019.2954094.
- 8. В России сократилось количество аэропортов-миллионников // РБК. 04.02.2025. URL: https://www.rbc.ru/economics/04/02/2025/6793c2d19a79470e6cb523d8 (дата обращения: 09.05.2026).
- 9. Airport CDM Implementation Manual. Edition 5.0 / EUROCONTROL. Brussels, 2017.
- 10. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2016. P. 785–794. DOI: 10.1145/2939672.2939785.
- 11. Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 3146–3154.
- 12. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features // Advances in Neural Information Processing Systems. 2018. Vol. 31. P. 6639–6649.
- 13. В аэропорту Внуково в 2025 году появится система A-CDM // АБН 24. 10.12.2024. URL: https://abnews.ru/center/news/mosreg/2024/12/10/v-aeroportu-vnukovo-v-2025-godu-poyavitsya-sistema-a-cdm (дата обращения: 09.05.2026).
- 14. Аэропорты Пулково и Внуково договорились об информационном сотрудничестве в рамках операционной деятельности // CNews. 06.02.2025. URL: https://corp.cnews.ru/news/line/2025-02-06_aeroporty_pulkovo_i_vnukovo (дата обращения: 09.05.2026).
- 15. Чубукова И.А. Data Mining: учебное пособие. 2-е изд., испр. М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2008. 382 с.
- 16. ГОСТ Р 7.0.5–2008. Система стандартов по информации, библиотечному и издательскому делу. Библиографическая ссылка. Общие требования и правила составления. М.: Стандартинформ, 2008.


