ПРИМЕНЕНИЕ ПЕРЕНОСА ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ФИНАНСОВЫХ ВРЕМЕННЫХ РЯДОВ: ПРЕДОБУЧЕНИЕ НА МУЛЬТИИНСТРУМЕНТАЛЬНОМ НАБОРЕ ДАННЫХ РОССИЙСКОГО ФОНДОВОГО РЫНКА

ПРИМЕНЕНИЕ ПЕРЕНОСА ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ФИНАНСОВЫХ ВРЕМЕННЫХ РЯДОВ: ПРЕДОБУЧЕНИЕ НА МУЛЬТИИНСТРУМЕНТАЛЬНОМ НАБОРЕ ДАННЫХ РОССИЙСКОГО ФОНДОВОГО РЫНКА

Авторы публикации

Рубрика

Информационные технологии

Просмотры

28

Журнал

Журнал «Научный лидер» выпуск # 6 (259), Февраль ‘26

Поделиться

В работе исследуется применение метода переноса обучения (transfer learning) для повышения качества классификации направления движения цены акций на российском фондовом рынке. Предложена мультимасштабная архитектура на основе Transformer, обрабатывающая ценовые данные двух временных масштабов (30 минут и 4 часа) с использованием механизма перекрёстного внимания. Проведён сравнительный эксперимент трёх стратегий обучения: обучение с нуля на одном инструменте, предобучение на пуле из четырёх инструментов и дообучение предобученной модели на целевом инструменте. Экспериментальные результаты на данных акций ПАО «Газпром» за 2018–2025 гг. показали, что стратегия «предобучение→дообучение» обеспечивает наилучшее качество классификации: сбалансированная точность 0.507, F1-macro 0.505, что превосходит обучение с нуля (0.503 и 0.495 соответственно) и особенно — прямое применение предобученной модели (0.491 и 0.479).

Прогнозирование направления движения цены финансовых инструментов является одной из ключевых задач количественного анализа. Высокая стохастичность финансовых временных рядов, наличие нелинейных зависимостей и ограниченный объём доступных обучающих данных для отдельных инструментов создают значительные трудности для применения методов глубокого обучения [1].

Архитектура Transformer [2], первоначально предложенная для задач обработки естественного языка, продемонстрировала высокую эффективность в моделировании последовательностей и была успешно адаптирована для задач прогнозирования временных рядов [3]. Механизм самовнимания позволяет модели выявлять долгосрочные зависимости в данных, что особенно важно для финансовых рынков.

Перенос обучения — это подход, при котором модель, предобученная на большом объёме данных, адаптируется к целевой задаче с помощью дообучения — широко применяется в компьютерном зрении и обработке естественного языка [4]. Однако его применение к финансовым временным рядам исследовано значительно меньше. Основная гипотеза данной работы состоит в том, что предобучение на данных нескольких финансовых инструментов позволяет модели усвоить общие рыночные закономерности (реакция на объём, трендовые модели, поведение волатильности), которые затем могут быть адаптированы к специфике конкретного актива.

Целью работы является экспериментальная проверка эффективности переноса обучения для задачи классификации направления движения цены акций российского фондового рынка с использованием мультимасштабной архитектуры Transformer.

Архитектура мультимасштабного Transformer

Предложенная модель принимает на вход данные двух временных масштабов: 128 свечей по 30 минут (~2.7 торговых дня) и 32 свечи по 4 часа (~5.3 торговых дня). Каждый временной масштаб обрабатывается независимым энкодером Transformer, после чего представления объединяются через механизм перекрёстного внимания.

Общая структура модели включает следующие компоненты:

  1. Входная проекция — линейный слой, преобразующий 55 входных признаков в пространство размерности d_model = 256;
  2. Позиционное кодирование — синусоидальное позиционное кодирование по схеме Vaswani и др. [2];
  3. Два независимых энкодера Transformer (для 30-минутных и 4-часовых данных), каждый из 3 слоёв с 8 головами внимания;
  4. Перекрёстное внимание между масштабами — слой, в котором представления одного временного масштаба используются как запросы, а другого — как ключи и значения;
  5. Классификатор — полносвязная сеть, принимающая объединение агрегированных представлений обоих масштабов (512→256→3).

Особенностью архитектуры является использование специализированных голов внимания четырёх типов:

  • трендовая (коэффициент усиления внимания 0.5, температура 0.8);
  • объёмная (1.0, 1.0);
  • паттерновая (0.7, 1.0);
  • волатильностная (1.2, 1.5).

Различная инициализация и температурный коэффициент позволяют головам специализироваться на разных аспектах рыночной динамики. Общее число параметров модели составляет 4 638 211.

Генерация признаков

Из исходных OHLCV-данных генерируется 67 технических индикаторов, из которых после нормализации остаётся 55 признаков, сгруппированных по категориям: доходности (простая, логарифмическая, за N периодов), волатильность (ATR, стандартное отклонение), объём (отношение к среднему, OBV-сигнал, всплеск объёма), трендовые индикаторы (скользящие средние, MACD, наклон экспоненциальной средней), осцилляторы (RSI, Stochastic, Williams %R, CCI, MFI), свечные паттерны (отношение тела свечи, модель «дожи»), сила тренда (ADX, DMI) и временные признаки (циклическое кодирование часа и дня недели). Нормализация выполняется с помощью робастного масштабирования (RobustScaler), обученного исключительно на тренировочных данных для предотвращения утечки информации.

В работе сравниваются три стратегии обучения:

  1. Одиночное обучение — обучение модели с нуля на данных одного инструмента (GAZP). Веса инициализируются методом Xavier. Обучение проводится в течение 80 эпох со скоростью обучения 5·10⁻⁴, планировщиком с косинусным затуханием и линейным разогревом (3 эпохи) и ранней остановкой (период ожидания — 50 эпох).
  2. Предобучение — обучение на объединённом наборе данных четырёх инструментов (SBER, GAZP, LKOH, MOEX) с поинструментной нормализацией. Общий объём обучающей выборки составляет ~23 600 примеров (против ~5 900 для одиночного режима). Обучение проводится 30 эпох.
  3. Дообучение — адаптация предобученной модели на данных целевого инструмента (GAZP) с уменьшенной скоростью обучения 5·10⁻⁵ (0.1 от базовой), сокращённым разогревом (1 эпоха) и периодом ожидания ранней остановки 10 эпох.

Во всех режимах используется Focal Loss [5] с параметром γ = 2.0 и классовыми весами, рассчитанными как корень обратной частоты с ограничением в диапазоне [0.3, 3.0]. Оптимизация выполняется алгоритмом AdamW с затуханием весов 0.05 и ограничением градиента 1.0.

Экспериментальные результаты

Эксперименты проведены на данных акций Московской биржи за период с января 2018 по декабрь 2025 года. Для предобучения использованы данные четырёх инструментов: SBER (Сбербанк), GAZP (Газпром), LKOH (ЛУКОЙЛ) и MOEX (Мосбиржа). Целевым инструментом для оценки является GAZP. Данные разделены хронологически: 70% — обучение, 15% — валидация, 15% — тест (1 270 примеров).

Результаты оценки трёх моделей на тестовом наборе GAZP представлены в таблице 1.

Таблица 1.

Результаты классификации на тестовом наборе GAZP

 Метрика

 Одиночное

 Предобучение

 Дообучение

 Потери на тесте

 0.4308

 0.4316

0.4295

 Точность

 0.4992

 0.4835

0.5047

 Сбалансированная точность

 0.5028

 0.4908

0.5067

 F1-macro

 0.4953

 0.4787

0.5053

 F1-взвешенный

 0.4929

 0.4757

0.5037

 

Стратегия дообучения демонстрирует наилучшие результаты по всем ключевым метрикам, превосходя одиночное обучение на 0.4–1.0 процентных пунктов. Прямое применение предобученной модели к данным GAZP показывает наихудшие результаты, что подтверждает необходимость этапа адаптации.

Детализированные результаты по классам представлены в таблице 2.

Таблица 2.

F1-мера по классам

Класс

Одиночное

Предобучение

Дообучение

Рост

0.513

0.511

0.519

Падение

0.558

0.541

0.544

Боковик

0.415

0.385

0.453

 

Наиболее значительное улучшение дообученной модели наблюдается для класса «Боковик» (+3.8 п.п. по сравнению с одиночным обучением и +6.8 п.п. по сравнению с предобучением). Это свидетельствует о том, что перенос обучения помогает модели лучше выявлять периоды неопределённости рынка, которые являются наиболее сложным классом для классификации.

Модель одиночного обучения обучалась 80 эпох с лучшим результатом на валидации (сбалансированная точность = 0.568) на эпохе 42. Дообучение потребовало всего 21 эпоху (сработала ранняя остановка) с лучшей валидационной сбалансированной точностью 0.553 на эпохе 11. Несмотря на более низкие валидационные показатели, дообученная модель лучше обобщается на тестовых данных, что указывает на меньшую склонность к переобучению благодаря предобученной инициализации весов.

Полученные результаты подтверждают гипотезу о применимости переноса обучения к задачам прогнозирования финансовых временных рядов. Стратегия «предобучение→дообучение» позволяет модели:

а) усвоить общие рыночные закономерности на этапе предобучения (реакция на объём, трендовые структуры, поведение при высокой волатильности);

б) адаптировать эти знания к специфике конкретного актива на этапе дообучения.

Заключение

В работе экспериментально подтверждена эффективность стратегии переноса обучения для задачи классификации направления движения цены акций. Предложенная мультимасштабная архитектура на основе Transformer с механизмом перекрёстного внимания и специализированными головами внимания обеспечивает извлечение информативных признаков из данных нескольких временных масштабов. Стратегия «предобучение→дообучение» показала наилучшие результаты на тестовых данных GAZP, превосходя обучение с нуля по всем ключевым метрикам: сбалансированная точность (+0.4 п.п.), F1-macro (+1.0 п.п.), точность (+0.6 п.п.). Наибольшее улучшение достигается для класса «Боковик», где F1-мера увеличилась на 3.8 п.п.

Список литературы

  1. Задорожко М.Р., Яровова А.И. Применение нейронных сетей при прогнозировании финансовых показателей: опыт и перспективы для российских компаний // Российский экономический университет имени Г.В. Плеханова. — 2024. — № 1. — С. 124–129
  2. Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need // Advances in Neural Information Processing Systems (NeurIPS). — 2017. — Vol. 30. — P. 5998–6008
  3. Вержаковская, М.А. Экономика программной инженерии. Теория, алгоритмы, программы: учебное пособие / М. А. Вержаковская, В. Ю. Аронов. — Самара: ПГУТИ, 2022. — 150 с.
  4. Wen Q., Zhou T., Zhang C. et al. Transformers in Time Series: A Survey // International Journal of Machine Learning and Cybernetics. — 2023. — Vol. 14. — P. 3621–3646
  5. Маран, М. М. Программная инженерия: учебное пособие для вузов / М. М. Маран. — 3-е изд., стер. — Санкт-Петербург: Лань, 2022. — 196 с.
  6. Клюева, И.А. Современные возможности и примеры внедрения машинного обучения // Оригинальные исследования. — 2021. — № 7. — С. 12–32
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 5 дней до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее