Информационные технологии стали неотъемлемой частью жизни, что сопровождается ростом киберугроз, среди которых особенно распространён фишинг.
Реккурентная нейронная сеть (RNN) – это тип нейронных сетей для анализа информации, которая представлена в виде последовательностей. Они применяются в задачах, где важно учитывать последовательный характер данных [1].
Фишинг – это вид кибермошенничества, нацеленный на получение доступа к конфиденциальной информации посредством побуждения пользователя перейти по ссылке на интернет-ресурс, содержащий вредоносный код [2].
1. Постановка задачи и выбор методов решения
Цель исследования: разработать нейронную сеть для автоматического распознавания фишинговых сообщений. С помощью нее проверить две гипотезы:
- эффективность фильтрации писем в папке «СПАМ» различается в зависимости от почтового домена и используемых алгоритмов обработки сообщений;
- наличие в электронных письмах таких признаков, как подозрительные домены и внешние ссылки, повышает вероятность их корректной классификации как фишинговых сообщений почтовыми фильтрами.
Во время разработки системы выбор структуры сети для решения задачи проводился среди следующих реккурентных нейронных сетей:
- LSTM (Long Short-Term Memory) эффективно обрабатывают длинные последовательности, запоминая контекст и подавляя проблему исчезающего градиента;
- BiLSTM (двунаправленные LSTM) анализируют последовательность в двух направлениях (вперед и назад), что позволяет лучше учитывать контект.
Среди вышеперечисленных видов сетей была выделена BiLSTM для задачи анализа текста писем и последовательных представлений URL/доменных имен, особенно при относительно небольших объёмах качественно размеченных данных.
2. Описание набора данных
Формирование обучающего набора данных стало трудоемкой задачей исследования. Анализ открытых источников показал, что доступные датасеты в основном ориентированы на URL-адреса и не позволяют учитывать текстовую составляющую писем. А также существующие наборы с текстами писем представлены на английском языке.
В связи с этим был сформирован собственный датасет. Сбор данных осуществлялся с использованием инструмента, обеспечивающего подключение к почтовому серверу по протоколу IMAP и извлечение содержимого сообщений. Обрабатывались заголовки, тема и текст письма.
В результате был получен набор из 250 писем, содержащий как фишинговые, так и легитимные сообщения. Для подготовки данных применялись методы предварительной обработки текста, включая токенизацию и лемматизацию. Далее данные были размечены и разделены на обучающую и валидационную выборки в пропорции 80/20.
3. Реализация алгоритма обучения нейронной сети
Входная последовательность токенов представляется в виде набора векторов:

(1)
где T – длина последовательности, d – размерность эмбеддинга.
В основе модели лежит LSTM-ячейка, описываемая следующими уравнениями:

(2)

(3)

(4)

(5)

(6)

(7)
где – состояние памяти, – скрытое состояние, - сигмоида, * - поэлементное умножение.
В BiLSTM последовательность обрабатывается в двух направлениях:

(8)

(9)
Итоговое представление:

(10)
В качестве показателей качества работы нейронной сети использовались бинарная кросс-энтропийная функция потерь (Loss) и точность (Accuracy) [3].

(11)

(12)
где - вероятность наличия фишинга, - вероятность отсутствия фишинга, TP, TR, TN, FP, FN – переменные, обозначенные в таблице 1.
Таблица 1.
Матрица ошибок
| Фишинг присутствует | Фишинг отсутствует | |
| Фишинг присутствует | True Positive (TP) – фишинг найден правильно | False Positive (FP) – фишинг найден ошибочно (его нет) |
| Фишинг отсутствует | False Negative (FN) – фишнг пропущен (принят за безопасное письмо) | True Negative (TN) – письмо правильно определено как безопасное |
4. Исследование
Для проверки выдвинутых гипотез была сформирована выборка реальных писем из папок «СПАМ» трёх почтовых сервисов: Yandex, Mail и Outlook. Объём выборки для каждого сервиса составил 65 сообщений, что позволило обеспечить сопоставимость результатов.
Проверка первой гипотезы осуществлялась на основе сопоставления результатов классификации, полученных с использованием разработанной модели, с фактическим распределением писем по папке «СПАМ» в различных почтовых сервисах. Сравнение результатов работы разработанной модели с фактической фильтрацией почтовых сервисов выявило различия в эффективности их алгоритмов. Наиболее стабильные результаты продемонстрировал Yandex.
Исследование показало, что наличие в письмах таких признаков, как подозрительные домены и внешние ссылки, существенно повышает вероятность их корректной классификации как фишинговых. Как видно из табл. 3, фишинговые письма содержат в среднем больше ссылок и изображений по сравнению с обычными, что выступает важным индикатором при их выявлении. Дополнительно, согласно данным табл. 4, доля подозрительных доменов в фишинговых письмах значительно выше, чем в легитимных сообщениях.
Анализ распределения писем по папкам почтовых сервисов (табл. 2) также подтверждает эффективность фильтрации: большая часть фишинговых сообщений корректно попадает в папку «Спам». В совокупности это позволяет достичь точности выявления на уровне 94,3 %, что подтверждает вторую гипотезу.
Таблица 2.
Распределение писем по папкам
| Почтовый сервис | Общее кол-во писем | СПАМ | Входящие |
| Yandex | 65 | 48 | 17 |
| 65 | 42 | 23 | |
| Outlook | 65 | 54 | 11 |
Таблица 3.
Признаки в письмах
| Тип писем | Среднее кол-во ссылок | Среднее кол-во изображений |
| Обычные письма | 0,8 | 0,5 |
| Фишинговые письма | 2,7 | 1,9 |
Таблица 4.
Характеристики доменов
| Тип писем | Подозрительные домены | Обычные домены |
| Обычные письма | 12% | 88% |
| Фишинговые письма | 76% | 24% |
Заключение
Проведённое исследование подтвердило выдвинутые гипотезы и показало, что эффективность фильтрации спама зависит от используемых алгоритмов и конкретного почтового сервиса. Наиболее стабильные результаты продемонстрировал Yandex.
Разработанная модель на основе BiLSTM обеспечила точность классификации на уровне 93,43 % даже при ограниченном объёме данных. Дополнительно установлено, что наличие характерных признаков фишинга повышает вероятность их корректного обнаружения до 94,3 %.
Список литературы
- 1. Реккурентная нейронная сеть [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть (дата обращения: 26.02.2026).
- 2. Фишинг [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Фишинг (дата обращения: 26.02.2026).
- 3. Глубокое обучение [Текси] /Гудфеллоу И., Бенджио Й., Курвилль А. // С. 381-385.


