РЕАЛИЗАЦИЯ АЛГОРИТМА КЛАССИФИКАЦИИ ИНЦИДЕНТОВ В DLP-СИСТЕМЕ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

РЕАЛИЗАЦИЯ АЛГОРИТМА КЛАССИФИКАЦИИ ИНЦИДЕНТОВ В DLP-СИСТЕМЕ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Авторы публикации

Рубрика

Кибербезопасность

Журнал

Журнал «Научный лидер» выпуск # 16 (167), Май ‘24

Дата публикации 05.05.2024

Поделиться

Рассмотрены функции DLP-системы, виды и цели анализа данных, как системы находит отклонения и нарушения политик безопасности. Рассмотрены виды данных в компаниях, как используются метафайлы, и какая информация в них хранится. В каких областях проводят анализ данных. Что такое аналитическая технология, зачем нужны обучающие библиотеки и как они применяются для работы классификаторов. Классификация текста и изображений. Раскрыты виды анализа авторских прав, анализ текстовых примитивов. Авторский анализ растровых графических данных и почему детектор эталонных бланков незаменим для компаний, в которых анкетные данные важный цифровой актив. Основан вывод о возможностях работы DLP-системы на предприятиях.

Введение

DLP-системы стали развиваться вглубь, что привело к улучшению качества анализа и защиты информации.  Они стали эксплуатироваться как для защиты от утечек данных, так и для составления отчётов безопасности. Поэтому информация из DLP приобретает важную роль для принятия управленческих действий, что превращает информационную безопасность в инструмент для других отделов компании, от отдела кадров до экономической безопасности.

Цель анализа данных

Первоначальная цель анализа данных – это предотвращение утечек. Создать безопасность возможно и без метода анализа утечек, в таком случае используются административные меры запрещающие действия (это низкобюджетный способ). Программная реализация алгоритма классификации инцидентов в DLP-системе реализуется с помощью Keras. Keras — это открытая библиотека, написанная на языке Python, и обеспечивающая взаимодействие с искусственными нейронными сетями. Она представляет собой надстройку над фреймворком TensorFlow. TensorFlow — это комплексная платформа машинного обучения с открытым исходным кодом. Использование рекуррентной нейронной сети позволило добиться высокого качества работы алгоритма

Анализ последовательности событий

Для анализа последовательности событий используется разметка архива событий, в результате этого исследования создаются экземпляры класса UBA (User Behavior Analytics), такие, как InfoWatch Prediction. Эти экземпляры предназначены для поведенческого анализа пользователя. Для сравнения принимается набор данных, которые сгенерировал пользователь в информационной системе. Это позволяет засекать различные отклонения или несоответствия с политиками безопасности, направленные и случайные аномалии, как большой архив скачанных файлов, для продажи информации конкурентам. Такая система может показать вероятность ухода сотрудника из компании проверяя заходит ли он на сайты поиска работы или оценки работодателя, также InfoWatch Prediction выявит, может ли кто-то из сотрудников аффилирован с другой компанией. Также возможно восстанавливать ряд событий, применять машинное обучение и предсказывать риски, возможно находить недостатки или сбои в бизнес-процессе и исправлять их во благо бизнеса.

Рекуррентная нейронная сеть (RNN)

Основное отличие рекуррентной сети от обычной заключается в логике работы сети, в которой каждый нейрон связан сам с собой. Элементы такой сети поочерёдно передаются одним нейроном, который возвращает своё предсказание себе же со следующим её элементом, пока идёт последовательность. Подобные сети часто используют в работе с последовательной информацией, как правило, с текстами и аудио и видеосигналами. Рекуррентные сети используют нейроны с дополнительным циклом, которые используют своё дополнительное скрытое состояние, а именно: возвращение предыдущего результата. Если развернуть изображение таких, получится цепь нейронов, каждый из которых получает на вход свой же элемент последовательности и выдаёт предсказание и передаёт его дальше по цепочке как своего рода ячейку памяти.

Отличие типов рекуррентных сетей заключается в обработке ячейки памяти внутри них. При стандартном подходе складываются два вектора (сигнала и памяти) с последующим вычислением их суммы. В результате получается обычная сеть с одним скрытым слоем.

Что такое аналитическая технология

Возможно классифицировать информацию с атрибутами, которые могут идентифицировать конкретные группы или разделы данных. Долгое время изображения не подвергались классификации, но благодаря компьютерному зрению и росту производительности компьютеров стало возможно классифицировать этот тип данных. В целом, главным условием при создании технологии стало минимум времени и максимум качества. Во время анализа данных важна скорость работы, в ином случае существует риск, что специалист по информационной безопасности слишком поздно узнает об инциденте. DLP-система регистрирует миллионы событий каждый день. Долгий анализ такого объёма информации может представлять угрозу бизнесу.

Работа классификатора невозможна без обучающей библиотеки. Это размеченная библиотека, в которой каждый файл относится к определенному классу. Простая аналогия – это каталог с документами на жестком диске. На следующем шаге математическое ядро обучается на основе признаков, выделенных из файлов библиотеки и разбитых на категории. По завершении обучения, в классификатор можно отправлять документы. После перехвата из файла извлекаются признаки и отправляются в математическое ядро, после этого классификатор относит обработанные данные к подходящим категориям. Неосуществимо заранее настроить классификатор для какой-либо компании.  Причем если компании работают в одной нише и на одном рынке, то наборы терминов могут различаться, поэтому необходимо проводить тонкую настройку при установке DLP-системы для высокой эффективности работы. В ходе работы возможно необходимо корректировать классификатор, по мере изменения категорий или их характеристик.

Помимо классификации изображений возможно классифицировать текст. Множество подходов машинного обучения возможно использовать для этого. InfoWatch эксплуатирует несколько из них, такие, как косинусная мера и логистическую регрессию. В тексте выделяемыми признаками являются слова. Во многих языках они имеют формы и при изменении форм слов смысл текста почти не меняется. Для этого классификаторы используют морфологические словари и могут приводить слова к нормальной форме, что повышает качество работы классификации. К такому же повышению приводит и система исправления ошибок, которая позволяет сравнить выбранные слова с известными терминами и исправляет одну ошибку.

Анализ авторских прав

Этот тип анализа можно описать как поиск частей стандарта в анализируемой информации. В InfoWatch Traffic Monitor существует несколько подобных анализов, которые реализуются похожему алгоритму: в систему вносится каталог эталонных документов. После каждая часть проверяемых данных сравнивается со стандартом. Для каждой задачи существует свой тип анализа, который может работать только с единственным примитивом данных.

Существует классический анализ на авторские права. В виде стандарта он использует текст (каким-либо образом извлеченный из разных форматов) и проверяет лишь текстовые примитивы. В последствии DLP находит релевантность (процент плагиата со стандарта) и выделяет скопированные данные в пользовательском интерфейсе. Анализ авторских прав двоичных данных работает по подобным принципам, но не выделяет данные, а находит только релевантность. Возможности этой технологии все еще ограничены, но в этой сфере ведутся разработки.

Также существует авторский анализ растровых графических данных. Данный вид анализа работает со скоростью сравнимой с анализом авторских прав в тексте (включая устранение зависимости скорости анализа от количества эталонных изображений), не зависит от формата и разрешения изображения, но при этом зависимости от ориентации. Это обозначает что после поворота на 90 градусов изображеня, оно не может быть проверено, но это решается добавлением в список эталонных файлов любые варианты поворота изображений.

Для векторного изображения имеется следующий анализ авторских прав. Здесь выделяется графические примитивы, их относительное положение в стандарте видит пользователь. Это, помимо прочего, позволяет перехватывать части векторных изображений.

Далее поговорим об специальных видах анализа авторских прав. Они были созданы для узкоспециализированных, но частых задач. Например, детектор эталонных бланков. Его цель - обнаружить заполненные анкеты. Пустой бланк принимается в качестве стандарта, и алгоритм снимает его поля. Полем стандартной формы считается часть текста, который разделяется тремя пробелами, тремя подчеркиваниями или переносом строки. Также, для более тонкой настройки, возможно дополнить список разделителей. Заметим, полями формы, также, считаются обрамляющий бланк текст. В ходе анализа, в случае совпадения с полями эталонного бланка, из текстового примитива выделяются поля. После сравнивается их порядок, и проверяется наличие символов между полями, в случае нахождения символов, поле считается заполненным. На следующем этапе проверяется количество найденных и заполненных полей и их расположение в проверяемом бланке. Для компаний, в которых анкетные данные важный цифровой актив, такой анализ незаменим.

Анализ выгрузок из базы данных, второй специальный вид проверки. Анализируются именно выгрузки, а не сама база данных, так как к самим базам данных доступ есть только у администраторов. Большинство пользователей никогда не видели базы данных, так как работают с программами, и в результате выполнения SQL-запросов они видят только части бд. Часто информация не хранится в базе данных в прямом виде: одна и та же заработная плата может быть разделена на количество отработанных часов, почасовую ставку или процентную надбавку и т.д. А бухгалтер видит таблицу со столбцами "ФИО" и "зарплата". Именно в этом формате чаще всего происходят утечки данных. Поэтому, того, чтобы начать защищать базу данных, в любом случае необходимо каким-то образом понимать, как информация из базы данных дойдет до конечного пользователя. Кроме того, в базе данных хранится много вспомогательной информации, которую редко можно увидеть в потоке. Умножая все на разные виды базы данных, их структуру и т.д.

Ключевым фактором является условие запуска, обеспечивающим правильную работу DLP-системы с выгрузками. Речь идет о том, какие данные из базы данных надо обнаружить в проверяемом файле. Рассмотрим ситуацию, где после обнаружения 5 и более строк, с данными из столбцов 4,5 и 6, должна осуществиться выгрузка. Может быть множество условий срабатывания, и для каждого из них можно прописать свои инструкции. Для кого-то это важно, а для кого-то нет.

Остаются два графических анализа авторских прав: детектор стандартных печатей и "поиск картинки в картинке". Первый даёт возможность задавать треугольные и круглые печати в качестве стандартных и ищет их в проверяемом изображении. То есть задача состоит в том, чтобы найти необходимую печать на фотографии документа или его скане.

Следующий также известен как детектор кредитных карт. В общем, эта технология работает следующим образом, среди всех изображений, анализатор ищет заданное изображение. Реже используется для поиска логотипов платежных систем. В InfoWatch Traffic Monitor существует графический объект "кредитная карта", использующий данную технологию. Данная технология не получила широкого распространения, так как скорость ее работы зависит от количества справочных документов, чем больше изображений среди которых ведется анализ, тем медленнее скорость работы. А скорость вышеуказанных технологий существенно не снижается из-за добавления большого количества справочных документов. Вероятно, нет необходимости объяснять, насколько эффективна эта технология в борьбе с кражей данных платежных карт.

Заключение

Можно сделать вывод, DLP — это сложная система с большим набором функций, и результат ее работы во многом зависит от того, как качественно поставщик произвел настройки заказчику. На рынке DLP-решения существует уже 20 лет. За такое время они полностью сформировались, но также существует мнение, что индустрия DLP зашла в тупик. Но это не так, потому что задачи, поставленные перед этой системой, всегда усложняются, меняются каналы передачи, документы, данные и тематики, нуждающиеся в защите.

Чего стоил массовый переход на удаленную работу и необходимость обеспечения кибербезопасности и защиты от утечек в условиях удаленной работы? Эта ситуация заставила расширять возможности и повышать качество системы. Фактические нарушения, опасные для поддержания непрерывности бизнеса и его эффективности, находятся, как правило, на периферии. С помощью технологии возможно анализировать взаимодействие с партнерами и конкурентами, выявлять подозрительные схемы и паттерны, составлять графики связей, выявлять группы неформальных лидеров, своевременно и грамотно реагировать на риски.

За прошедшие годы аналитическая технология DLP совершила прорыв. Из неё вырастают новые сервисы, способные решать широкий спектр бизнес-задач, выходящих далеко за рамки информационной безопасности.

Список литературы

  1. InformationSecurity [Электронный ресурс]. Режим доступа: https://www.itsec.ru/articles/dannye-v-dlp-sisteme-kladez-informacii-dlya-rukovoditelya (Дата обращения 05.03.2023)
  2. The method of modeling in the detection of crimes, applicable in investigative and investigative activities [Электронный ресурс]. Режим доступа: http://vabb.com.ua/news/metod-modelirovania.html (Дата обращения 05.03.2023)
  3. Market analysis of Confidential Data Leakage Protection Systems (DLP) in Russia [Электронный ресурс]. Режим доступа: https://detsys.ru/article/analiz_rynka_system_zaschity (Дата обращения 05.03.2023)
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 4 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary