Журнал «Научный лидер» выпуск #13 (266), Март ‘26

РАЗРАБОТКА НЕЙРОННОЙ СЕТИ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ФИШИНГОВЫХ СООБЩЕНИЙ

Авторы публикации

Топыркина Алина ДмитриевнаПопова-Коварцева Дарья Александровна

Рубрика

Информационные технологии

Просмотры

211

Журнал

Журнал «Научный лидер» выпуск # 13 (266), Март ‘26

Статья посвящена выявлению фишинговых писем с использованием методов глубокого обучения. Анализ открытых наборов данных показал их ограниченность, что привело к созданию собственного датасета. Исследование архитектур рекуррентных нейронных сетей показало преимущество двунаправленной архитектуры BiLSTM. Экспериментальная часть включала проверку выдвинутых гипотез. Эффективность фильтрации писем в папку «СПАМ» зависит от почтового домена, наилучшие результаты показал сервис Yandex. Наличие признаков фишинга повышает точность обнаружения до 94,3%.

фишинг

кибермошенничество

LSTM

рекуррентные нейронные сети

BiLSTM

Информационные технологии стали неотъемлемой частью жизни, что сопровождается ростом киберугроз, среди которых особенно распространён фишинг.

Реккурентная нейронная сеть (RNN) – это тип нейронных сетей для анализа информации, которая представлена в виде последовательностей. Они применяются в задачах, где важно учитывать последовательный характер данных [1].

Фишинг – это вид кибермошенничества, нацеленный на получение доступа к конфиденциальной информации посредством побуждения пользователя перейти по ссылке на интернет-ресурс, содержащий вредоносный код [2].

1. Постановка задачи и выбор методов решения

Цель исследования: разработать нейронную сеть для автоматического распознавания фишинговых сообщений. С помощью нее проверить две гипотезы:

эффективность фильтрации писем в папке «СПАМ» различается в зависимости от почтового домена и используемых алгоритмов обработки сообщений;
наличие в электронных письмах таких признаков, как подозрительные домены и внешние ссылки, повышает вероятность их корректной классификации как фишинговых сообщений почтовыми фильтрами.

Во время разработки системы выбор структуры сети для решения задачи проводился среди следующих реккурентных нейронных сетей:

LSTM (Long Short-Term Memory) эффективно обрабатывают длинные последовательности, запоминая контекст и подавляя проблему исчезающего градиента;
BiLSTM (двунаправленные LSTM) анализируют последовательность в двух направлениях (вперед и назад), что позволяет лучше учитывать контект.

Среди вышеперечисленных видов сетей была выделена BiLSTM для задачи анализа текста писем и последовательных представлений URL/доменных имен, особенно при относительно небольших объёмах качественно размеченных данных.

2. Описание набора данных

Формирование обучающего набора данных стало трудоемкой задачей исследования. Анализ открытых источников показал, что доступные датасеты в основном ориентированы на URL-адреса и не позволяют учитывать текстовую составляющую писем. А также существующие наборы с текстами писем представлены на английском языке.

В связи с этим был сформирован собственный датасет. Сбор данных осуществлялся с использованием инструмента, обеспечивающего подключение к почтовому серверу по протоколу IMAP и извлечение содержимого сообщений. Обрабатывались заголовки, тема и текст письма.

В результате был получен набор из 250 писем, содержащий как фишинговые, так и легитимные сообщения. Для подготовки данных применялись методы предварительной обработки текста, включая токенизацию и лемматизацию. Далее данные были размечены и разделены на обучающую и валидационную выборки в пропорции 80/20.

3. Реализация алгоритма обучения нейронной сети

Входная последовательность токенов представляется в виде набора векторов:

(1)

где T – длина последовательности, d – размерность эмбеддинга.

В основе модели лежит LSTM-ячейка, описываемая следующими уравнениями:

(2)

(3)

(4)

(5)

(6)

(7)

где f_{_t}, i_{_t}, o_{_t}– это вектора забывания, входа и выхода, с_t– состояние памяти, h_t – скрытое состояние, δ — сигмоида, * – поэлементное умножение.

В BiLSTM последовательность обрабатывается в двух направлениях:

(8)

(9)

Итоговое представление:

(10)

В качестве показателей качества работы нейронной сети использовались бинарная кросс-энтропийная функция потерь (Loss) и точность (Accuracy) [3].

(11)

(12)

где P_ρ – вероятность наличия фишинга, P_nρ – вероятность отсутствия фишинга, TP, TR, TN, FP, FN переменные, обозначенные в таблице 1.

Таблица 1.

Матрица ошибок

	Фишинг присутствует	Фишинг отсутствует
Фишинг присутствует	True Positive (TP) – фишинг найден правильно	False Positive (FP) – фишинг найден ошибочно (его нет)
Фишинг отсутствует	False Negative (FN) – фишнг пропущен (принят за безопасное письмо)	True Negative (TN) – письмо правильно определено как безопасное

4. Исследование

Для проверки выдвинутых гипотез была сформирована выборка реальных писем из папок «СПАМ» трёх почтовых сервисов: Yandex, Mail и Outlook. Объём выборки для каждого сервиса составил 65 сообщений, что позволило обеспечить сопоставимость результатов.

Проверка первой гипотезы осуществлялась на основе сопоставления результатов классификации, полученных с использованием разработанной модели, с фактическим распределением писем по папке «СПАМ» в различных почтовых сервисах. Сравнение результатов работы разработанной модели с фактической фильтрацией почтовых сервисов выявило различия в эффективности их алгоритмов. Наиболее стабильные результаты продемонстрировал Yandex.

Исследование показало, что наличие в письмах таких признаков, как подозрительные домены и внешние ссылки, существенно повышает вероятность их корректной классификации как фишинговых. Как видно из табл. 3, фишинговые письма содержат в среднем больше ссылок и изображений по сравнению с обычными, что выступает важным индикатором при их выявлении. Дополнительно, согласно данным табл. 4, доля подозрительных доменов в фишинговых письмах значительно выше, чем в легитимных сообщениях.

Анализ распределения писем по папкам почтовых сервисов (табл. 2) также подтверждает эффективность фильтрации: большая часть фишинговых сообщений корректно попадает в папку «Спам». В совокупности это позволяет достичь точности выявления на уровне 94,3 %, что подтверждает вторую гипотезу.

Таблица 2.

Распределение писем по папкам

Почтовый сервис	Общее кол-во писем	СПАМ	Входящие
Yandex	65	48	17
Mail	65	42	23
Outlook	65	54	11

Таблица 3.

Признаки в письмах

Тип писем	Среднее кол-во ссылок	Среднее кол-во изображений
Обычные письма	0,8	0,5
Фишинговые письма	2,7	1,9

Таблица 4.

Характеристики доменов

Тип писем	Подозрительные домены	Обычные домены
Обычные письма	12%	88%
Фишинговые письма	76%	24%

Заключение

Проведённое исследование подтвердило выдвинутые гипотезы и показало, что эффективность фильтрации спама зависит от используемых алгоритмов и конкретного почтового сервиса. Наиболее стабильные результаты продемонстрировал Yandex.

Разработанная модель на основе BiLSTM обеспечила точность классификации на уровне 93,43 % даже при ограниченном объёме данных. Дополнительно установлено, что наличие характерных признаков фишинга повышает вероятность их корректного обнаружения до 94,3 %.

Список литературы

Реккурентная нейронная сеть [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть (дата обращения: 26.02.2026)
Фишинг [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Фишинг (дата обращения: 26.02.2026)
Глубокое обучение [Текси] /Гудфеллоу И., Бенджио Й., Курвилль А. // С. 381-385