РАЗРАБОТКА НЕЙРОННОЙ СЕТИ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ФИШИНГОВЫХ СООБЩЕНИЙ

РАЗРАБОТКА НЕЙРОННОЙ СЕТИ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ФИШИНГОВЫХ СООБЩЕНИЙ

Авторы публикации

Рубрика

Информационные технологии

Просмотры

3

Журнал

Журнал «Научный лидер» выпуск # 13 (266), Март ‘26

Поделиться

Статья посвящена выявлению фишинговых писем с использованием методов глубокого обучения. Анализ открытых наборов данных показал их ограниченность, что привело к созданию собственного датасета. Исследование архитектур рекуррентных нейронных сетей показало преимущество двунаправленной архитектуры BiLSTM. Экспериментальная часть включала проверку выдвинутых гипотез. Эффективность фильтрации писем в папку «СПАМ» зависит от почтового домена, наилучшие результаты показал сервис Yandex. Наличие признаков фишинга повышает точность обнаружения до 94,3 %.

Информационные технологии стали неотъемлемой частью жизни, что сопровождается ростом киберугроз, среди которых особенно распространён фишинг.

Реккурентная нейронная сеть (RNN) – это тип нейронных сетей для анализа информации, которая представлена в виде последовательностей. Они применяются в задачах, где важно учитывать последовательный характер данных [1].

Фишинг – это вид кибермошенничества, нацеленный на получение доступа к конфиденциальной информации посредством побуждения пользователя перейти по ссылке на интернет-ресурс, содержащий вредоносный код [2].

1. Постановка задачи и выбор методов решения

Цель исследования: разработать нейронную сеть для автоматического распознавания фишинговых сообщений. С помощью нее проверить две гипотезы:

  • эффективность фильтрации писем в папке «СПАМ» различается в зависимости от почтового домена и используемых алгоритмов обработки сообщений;
  • наличие в электронных письмах таких признаков, как подозрительные домены и внешние ссылки, повышает вероятность их корректной классификации как фишинговых сообщений почтовыми фильтрами.

Во время разработки системы выбор структуры сети для решения задачи проводился среди следующих реккурентных нейронных сетей:

  • LSTM (Long Short-Term Memory) эффективно обрабатывают длинные последовательности, запоминая контекст и подавляя проблему исчезающего градиента;
  • BiLSTM (двунаправленные LSTM) анализируют последовательность в двух направлениях (вперед и назад), что позволяет лучше учитывать контект.

Среди вышеперечисленных видов сетей была выделена BiLSTM для задачи анализа текста писем и последовательных представлений URL/доменных имен, особенно при относительно небольших объёмах качественно размеченных данных.

2. Описание набора данных

Формирование обучающего набора данных стало трудоемкой задачей исследования. Анализ открытых источников показал, что доступные датасеты в основном ориентированы на URL-адреса и не позволяют учитывать текстовую составляющую писем. А также существующие наборы с текстами писем представлены на английском языке.

В связи с этим был сформирован собственный датасет. Сбор данных осуществлялся с использованием инструмента, обеспечивающего подключение к почтовому серверу по протоколу IMAP и извлечение содержимого сообщений. Обрабатывались заголовки, тема и текст письма.

В результате был получен набор из 250 писем, содержащий как фишинговые, так и легитимные сообщения. Для подготовки данных применялись методы предварительной обработки текста, включая токенизацию и лемматизацию. Далее данные были размечены и разделены на обучающую и валидационную выборки в пропорции 80/20.

3. Реализация алгоритма обучения нейронной сети

Входная последовательность токенов представляется в виде набора векторов:

(1)

где T – длина последовательности, d – размерность эмбеддинга.

В основе модели лежит LSTM-ячейка, описываемая следующими уравнениями:

(2)

(3)

(4)

(5)

(6)

(7)

где – состояние памяти, – скрытое состояние, - сигмоида, * - поэлементное умножение.

В BiLSTM последовательность обрабатывается в двух направлениях:

(8)

(9)

Итоговое представление:

(10)

В качестве показателей качества работы нейронной сети использовались бинарная кросс-энтропийная функция потерь (Loss) и точность (Accuracy) [3].

(11)

(12)

где - вероятность наличия фишинга, - вероятность отсутствия фишинга, TP, TR, TN, FP, FN – переменные, обозначенные в таблице 1.

Таблица 1.

Матрица ошибок

  Фишинг присутствует Фишинг отсутствует
Фишинг присутствует True Positive (TP) – фишинг найден правильно False Positive (FP) – фишинг найден ошибочно (его нет)
Фишинг отсутствует False Negative (FN) – фишнг пропущен (принят за безопасное письмо) True Negative (TN) – письмо правильно определено как безопасное

4. Исследование

Для проверки выдвинутых гипотез была сформирована выборка реальных писем из папок «СПАМ» трёх почтовых сервисов: Yandex, Mail и Outlook. Объём выборки для каждого сервиса составил 65 сообщений, что позволило обеспечить сопоставимость результатов.

Проверка первой гипотезы осуществлялась на основе сопоставления результатов классификации, полученных с использованием разработанной модели, с фактическим распределением писем по папке «СПАМ» в различных почтовых сервисах. Сравнение результатов работы разработанной модели с фактической фильтрацией почтовых сервисов выявило различия в эффективности их алгоритмов. Наиболее стабильные результаты продемонстрировал Yandex.

Исследование показало, что наличие в письмах таких признаков, как подозрительные домены и внешние ссылки, существенно повышает вероятность их корректной классификации как фишинговых. Как видно из табл. 3, фишинговые письма содержат в среднем больше ссылок и изображений по сравнению с обычными, что выступает важным индикатором при их выявлении. Дополнительно, согласно данным табл. 4, доля подозрительных доменов в фишинговых письмах значительно выше, чем в легитимных сообщениях.

Анализ распределения писем по папкам почтовых сервисов (табл. 2) также подтверждает эффективность фильтрации: большая часть фишинговых сообщений корректно попадает в папку «Спам». В совокупности это позволяет достичь точности выявления на уровне 94,3 %, что подтверждает вторую гипотезу.

Таблица 2.

Распределение писем по папкам

Почтовый сервис Общее кол-во писем СПАМ Входящие
Yandex 65 48 17
Mail 65 42 23
Outlook 65 54 11

Таблица 3.

Признаки в письмах

Тип писем Среднее кол-во ссылок Среднее кол-во изображений
Обычные письма 0,8 0,5
Фишинговые письма 2,7 1,9

Таблица 4.

Характеристики доменов

Тип писем Подозрительные домены Обычные домены
Обычные письма 12% 88%
Фишинговые письма 76% 24%

Заключение

Проведённое исследование подтвердило выдвинутые гипотезы и показало, что эффективность фильтрации спама зависит от используемых алгоритмов и конкретного почтового сервиса. Наиболее стабильные результаты продемонстрировал Yandex.

Разработанная модель на основе BiLSTM обеспечила точность классификации на уровне 93,43 % даже при ограниченном объёме данных. Дополнительно установлено, что наличие характерных признаков фишинга повышает вероятность их корректного обнаружения до 94,3 %.

Список литературы

  1. 1. Реккурентная нейронная сеть [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Рекуррентная_нейронная_сеть (дата обращения: 26.02.2026).
  2. 2. Фишинг [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Фишинг (дата обращения: 26.02.2026).
  3. 3. Глубокое обучение [Текси] /Гудфеллоу И., Бенджио Й., Курвилль А. // С. 381-385.
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Остался последний день
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее