Информационные технологии стали неотъемлемой частью жизни, что сопровождается ростом киберугроз, среди которых особенно распространён фишинг.
Реккурентная нейронная сеть (RNN) – это тип нейронных сетей для анализа информации, которая представлена в виде последовательностей. Они применяются в задачах, где важно учитывать последовательный характер данных [1].
Фишинг – это вид кибермошенничества, нацеленный на получение доступа к конфиденциальной информации посредством побуждения пользователя перейти по ссылке на интернет-ресурс, содержащий вредоносный код [2].
1. Постановка задачи и выбор методов решения
Цель исследования: разработать нейронную сеть для автоматического распознавания фишинговых сообщений. С помощью нее проверить две гипотезы:
- эффективность фильтрации писем в папке «СПАМ» различается в зависимости от почтового домена и используемых алгоритмов обработки сообщений;
- наличие в электронных письмах таких признаков, как подозрительные домены и внешние ссылки, повышает вероятность их корректной классификации как фишинговых сообщений почтовыми фильтрами.
Во время разработки системы выбор структуры сети для решения задачи проводился среди следующих реккурентных нейронных сетей:
- LSTM (Long Short-Term Memory) эффективно обрабатывают длинные последовательности, запоминая контекст и подавляя проблему исчезающего градиента;
- BiLSTM (двунаправленные LSTM) анализируют последовательность в двух направлениях (вперед и назад), что позволяет лучше учитывать контект.
Среди вышеперечисленных видов сетей была выделена BiLSTM для задачи анализа текста писем и последовательных представлений URL/доменных имен, особенно при относительно небольших объёмах качественно размеченных данных.
2. Описание набора данных
Формирование обучающего набора данных стало трудоемкой задачей исследования. Анализ открытых источников показал, что доступные датасеты в основном ориентированы на URL-адреса и не позволяют учитывать текстовую составляющую писем. А также существующие наборы с текстами писем представлены на английском языке.
В связи с этим был сформирован собственный датасет. Сбор данных осуществлялся с использованием инструмента, обеспечивающего подключение к почтовому серверу по протоколу IMAP и извлечение содержимого сообщений. Обрабатывались заголовки, тема и текст письма.
В результате был получен набор из 250 писем, содержащий как фишинговые, так и легитимные сообщения. Для подготовки данных применялись методы предварительной обработки текста, включая токенизацию и лемматизацию. Далее данные были размечены и разделены на обучающую и валидационную выборки в пропорции 80/20.
3. Реализация алгоритма обучения нейронной сети
Входная последовательность токенов представляется в виде набора векторов:
(1)
где T – длина последовательности, d – размерность эмбеддинга.
В основе модели лежит LSTM-ячейка, описываемая следующими уравнениями:
(2)
(3)
(4)
(5)
(6)
(7)
где
В BiLSTM последовательность обрабатывается в двух направлениях:
(8)
(9)
Итоговое представление:
(10)
В качестве показателей качества работы нейронной сети использовались бинарная кросс-энтропийная функция потерь (Loss) и точность (Accuracy) [3].
(11)
(12)
где
Таблица 1.
Матрица ошибок
|
|
Фишинг присутствует |
Фишинг отсутствует |
|
Фишинг присутствует |
True Positive (TP) – фишинг найден правильно |
False Positive (FP) – фишинг найден ошибочно (его нет) |
|
Фишинг отсутствует |
False Negative (FN) – фишнг пропущен (принят за безопасное письмо) |
True Negative (TN) – письмо правильно определено как безопасное |
4. Исследование
Для проверки выдвинутых гипотез была сформирована выборка реальных писем из папок «СПАМ» трёх почтовых сервисов: Yandex, Mail и Outlook. Объём выборки для каждого сервиса составил 65 сообщений, что позволило обеспечить сопоставимость результатов.
Проверка первой гипотезы осуществлялась на основе сопоставления результатов классификации, полученных с использованием разработанной модели, с фактическим распределением писем по папке «СПАМ» в различных почтовых сервисах. Сравнение результатов работы разработанной модели с фактической фильтрацией почтовых сервисов выявило различия в эффективности их алгоритмов. Наиболее стабильные результаты продемонстрировал Yandex.
Исследование показало, что наличие в письмах таких признаков, как подозрительные домены и внешние ссылки, существенно повышает вероятность их корректной классификации как фишинговых. Как видно из табл. 3, фишинговые письма содержат в среднем больше ссылок и изображений по сравнению с обычными, что выступает важным индикатором при их выявлении. Дополнительно, согласно данным табл. 4, доля подозрительных доменов в фишинговых письмах значительно выше, чем в легитимных сообщениях.
Анализ распределения писем по папкам почтовых сервисов (табл. 2) также подтверждает эффективность фильтрации: большая часть фишинговых сообщений корректно попадает в папку «Спам». В совокупности это позволяет достичь точности выявления на уровне 94,3 %, что подтверждает вторую гипотезу.
Таблица 2.
Распределение писем по папкам
|
Почтовый сервис |
Общее кол-во писем |
СПАМ |
Входящие |
|
Yandex |
65 |
48 |
17 |
|
|
65 |
42 |
23 |
|
Outlook |
65 |
54 |
11 |
Таблица 3.
Признаки в письмах
|
Тип писем |
Среднее кол-во ссылок |
Среднее кол-во изображений |
|
Обычные письма |
0,8 |
0,5 |
|
Фишинговые письма |
2,7 |
1,9 |
Таблица 4.
Характеристики доменов
|
Тип писем |
Подозрительные домены |
Обычные домены |
|
Обычные письма |
12% |
88% |
|
Фишинговые письма |
76% |
24% |
Заключение
Проведённое исследование подтвердило выдвинутые гипотезы и показало, что эффективность фильтрации спама зависит от используемых алгоритмов и конкретного почтового сервиса. Наиболее стабильные результаты продемонстрировал Yandex.
Разработанная модель на основе BiLSTM обеспечила точность классификации на уровне 93,43 % даже при ограниченном объёме данных. Дополнительно установлено, что наличие характерных признаков фишинга повышает вероятность их корректного обнаружения до 94,3 %.
Список литературы
- Реккурентная нейронная сеть [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть (дата обращения: 26.02.2026)
- Фишинг [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Фишинг (дата обращения: 26.02.2026)
- Глубокое обучение [Текси] /Гудфеллоу И., Бенджио Й., Курвилль А. // С. 381-385


