Прогнозирование направления движения цены финансовых инструментов является одной из ключевых задач количественного анализа. Высокая стохастичность финансовых временных рядов, наличие нелинейных зависимостей и ограниченный объём доступных обучающих данных для отдельных инструментов создают значительные трудности для применения методов глубокого обучения [1].
Архитектура Transformer [2], первоначально предложенная для задач обработки естественного языка, продемонстрировала высокую эффективность в моделировании последовательностей и была успешно адаптирована для задач прогнозирования временных рядов [3]. Механизм самовнимания позволяет модели выявлять долгосрочные зависимости в данных, что особенно важно для финансовых рынков.
Перенос обучения — это подход, при котором модель, предобученная на большом объёме данных, адаптируется к целевой задаче с помощью дообучения — широко применяется в компьютерном зрении и обработке естественного языка [4]. Однако его применение к финансовым временным рядам исследовано значительно меньше. Основная гипотеза данной работы состоит в том, что предобучение на данных нескольких финансовых инструментов позволяет модели усвоить общие рыночные закономерности (реакция на объём, трендовые модели, поведение волатильности), которые затем могут быть адаптированы к специфике конкретного актива.
Целью работы является экспериментальная проверка эффективности переноса обучения для задачи классификации направления движения цены акций российского фондового рынка с использованием мультимасштабной архитектуры Transformer.
Архитектура мультимасштабного Transformer
Предложенная модель принимает на вход данные двух временных масштабов: 128 свечей по 30 минут (~2.7 торговых дня) и 32 свечи по 4 часа (~5.3 торговых дня). Каждый временной масштаб обрабатывается независимым энкодером Transformer, после чего представления объединяются через механизм перекрёстного внимания.
Общая структура модели включает следующие компоненты:
- Входная проекция — линейный слой, преобразующий 55 входных признаков в пространство размерности d_model = 256;
- Позиционное кодирование — синусоидальное позиционное кодирование по схеме Vaswani и др. [2];
- Два независимых энкодера Transformer (для 30-минутных и 4-часовых данных), каждый из 3 слоёв с 8 головами внимания;
- Перекрёстное внимание между масштабами — слой, в котором представления одного временного масштаба используются как запросы, а другого — как ключи и значения;
- Классификатор — полносвязная сеть, принимающая объединение агрегированных представлений обоих масштабов (512→256→3).
Особенностью архитектуры является использование специализированных голов внимания четырёх типов:
- трендовая (коэффициент усиления внимания 0.5, температура 0.8);
- объёмная (1.0, 1.0);
- паттерновая (0.7, 1.0);
- волатильностная (1.2, 1.5).
Различная инициализация и температурный коэффициент позволяют головам специализироваться на разных аспектах рыночной динамики. Общее число параметров модели составляет 4 638 211.
Генерация признаков
Из исходных OHLCV-данных генерируется 67 технических индикаторов, из которых после нормализации остаётся 55 признаков, сгруппированных по категориям: доходности (простая, логарифмическая, за N периодов), волатильность (ATR, стандартное отклонение), объём (отношение к среднему, OBV-сигнал, всплеск объёма), трендовые индикаторы (скользящие средние, MACD, наклон экспоненциальной средней), осцилляторы (RSI, Stochastic, Williams %R, CCI, MFI), свечные паттерны (отношение тела свечи, модель «дожи»), сила тренда (ADX, DMI) и временные признаки (циклическое кодирование часа и дня недели). Нормализация выполняется с помощью робастного масштабирования (RobustScaler), обученного исключительно на тренировочных данных для предотвращения утечки информации.
В работе сравниваются три стратегии обучения:
- Одиночное обучение — обучение модели с нуля на данных одного инструмента (GAZP). Веса инициализируются методом Xavier. Обучение проводится в течение 80 эпох со скоростью обучения 5·10⁻⁴, планировщиком с косинусным затуханием и линейным разогревом (3 эпохи) и ранней остановкой (период ожидания — 50 эпох).
- Предобучение — обучение на объединённом наборе данных четырёх инструментов (SBER, GAZP, LKOH, MOEX) с поинструментной нормализацией. Общий объём обучающей выборки составляет ~23 600 примеров (против ~5 900 для одиночного режима). Обучение проводится 30 эпох.
- Дообучение — адаптация предобученной модели на данных целевого инструмента (GAZP) с уменьшенной скоростью обучения 5·10⁻⁵ (0.1 от базовой), сокращённым разогревом (1 эпоха) и периодом ожидания ранней остановки 10 эпох.
Во всех режимах используется Focal Loss [5] с параметром γ = 2.0 и классовыми весами, рассчитанными как корень обратной частоты с ограничением в диапазоне [0.3, 3.0]. Оптимизация выполняется алгоритмом AdamW с затуханием весов 0.05 и ограничением градиента 1.0.
Экспериментальные результаты
Эксперименты проведены на данных акций Московской биржи за период с января 2018 по декабрь 2025 года. Для предобучения использованы данные четырёх инструментов: SBER (Сбербанк), GAZP (Газпром), LKOH (ЛУКОЙЛ) и MOEX (Мосбиржа). Целевым инструментом для оценки является GAZP. Данные разделены хронологически: 70% — обучение, 15% — валидация, 15% — тест (1 270 примеров).
Результаты оценки трёх моделей на тестовом наборе GAZP представлены в таблице 1.
Таблица 1.
Результаты классификации на тестовом наборе GAZP
|
Метрика |
Одиночное |
Предобучение |
Дообучение |
|
Потери на тесте |
0.4308 |
0.4316 |
0.4295 |
|
Точность |
0.4992 |
0.4835 |
0.5047 |
|
Сбалансированная точность |
0.5028 |
0.4908 |
0.5067 |
|
F1-macro |
0.4953 |
0.4787 |
0.5053 |
|
F1-взвешенный |
0.4929 |
0.4757 |
0.5037 |
Стратегия дообучения демонстрирует наилучшие результаты по всем ключевым метрикам, превосходя одиночное обучение на 0.4–1.0 процентных пунктов. Прямое применение предобученной модели к данным GAZP показывает наихудшие результаты, что подтверждает необходимость этапа адаптации.
Детализированные результаты по классам представлены в таблице 2.
Таблица 2.
F1-мера по классам
|
Класс |
Одиночное |
Предобучение |
Дообучение |
|
Рост |
0.513 |
0.511 |
0.519 |
|
Падение |
0.558 |
0.541 |
0.544 |
|
Боковик |
0.415 |
0.385 |
0.453 |
Наиболее значительное улучшение дообученной модели наблюдается для класса «Боковик» (+3.8 п.п. по сравнению с одиночным обучением и +6.8 п.п. по сравнению с предобучением). Это свидетельствует о том, что перенос обучения помогает модели лучше выявлять периоды неопределённости рынка, которые являются наиболее сложным классом для классификации.
Модель одиночного обучения обучалась 80 эпох с лучшим результатом на валидации (сбалансированная точность = 0.568) на эпохе 42. Дообучение потребовало всего 21 эпоху (сработала ранняя остановка) с лучшей валидационной сбалансированной точностью 0.553 на эпохе 11. Несмотря на более низкие валидационные показатели, дообученная модель лучше обобщается на тестовых данных, что указывает на меньшую склонность к переобучению благодаря предобученной инициализации весов.
Полученные результаты подтверждают гипотезу о применимости переноса обучения к задачам прогнозирования финансовых временных рядов. Стратегия «предобучение→дообучение» позволяет модели:
а) усвоить общие рыночные закономерности на этапе предобучения (реакция на объём, трендовые структуры, поведение при высокой волатильности);
б) адаптировать эти знания к специфике конкретного актива на этапе дообучения.
Заключение
В работе экспериментально подтверждена эффективность стратегии переноса обучения для задачи классификации направления движения цены акций. Предложенная мультимасштабная архитектура на основе Transformer с механизмом перекрёстного внимания и специализированными головами внимания обеспечивает извлечение информативных признаков из данных нескольких временных масштабов. Стратегия «предобучение→дообучение» показала наилучшие результаты на тестовых данных GAZP, превосходя обучение с нуля по всем ключевым метрикам: сбалансированная точность (+0.4 п.п.), F1-macro (+1.0 п.п.), точность (+0.6 п.п.). Наибольшее улучшение достигается для класса «Боковик», где F1-мера увеличилась на 3.8 п.п.
Список литературы
- Задорожко М.Р., Яровова А.И. Применение нейронных сетей при прогнозировании финансовых показателей: опыт и перспективы для российских компаний // Российский экономический университет имени Г.В. Плеханова. — 2024. — № 1. — С. 124–129
- Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need // Advances in Neural Information Processing Systems (NeurIPS). — 2017. — Vol. 30. — P. 5998–6008
- Вержаковская, М.А. Экономика программной инженерии. Теория, алгоритмы, программы: учебное пособие / М. А. Вержаковская, В. Ю. Аронов. — Самара: ПГУТИ, 2022. — 150 с.
- Wen Q., Zhou T., Zhang C. et al. Transformers in Time Series: A Survey // International Journal of Machine Learning and Cybernetics. — 2023. — Vol. 14. — P. 3621–3646
- Маран, М. М. Программная инженерия: учебное пособие для вузов / М. М. Маран. — 3-е изд., стер. — Санкт-Петербург: Лань, 2022. — 196 с.
- Клюева, И.А. Современные возможности и примеры внедрения машинного обучения // Оригинальные исследования. — 2021. — № 7. — С. 12–32


