Журнал «Научный лидер» выпуск #16 (269), Апрель ‘26

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ И ВЫЯВЛЕНИЕ ЗАВИСИМОСТЕЙ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

Авторы публикации

Худяков Валерий ДмитриевичМуллаянов Данил Раушанович

Рубрика

Информационные технологии

Просмотры

147

Журнал

Журнал «Научный лидер» выпуск # 16 (269), Апрель ‘26

В статье рассматриваются методы статистического анализа данных, применяемые для выявления скрытых зависимостей в информационных системах. На примере реальных логов сетевой активности показана эффективность корреляционного и регрессионного анализа. Приведены математические постановки задачи, а также практические результаты, позволяющие прогнозировать аномалии и повышать эффективность систем информационной безопасности.

информационная система

регрессия

статистический анализ

корреляция

аномалии

выявление зависимостей

лог-файлы

Введение

Современные информационные системы (ИС) хранят огромные объемы данных: журнал логов, метрики производительности, события безопасности и тому подобное. Согласно данным экспертно-аналитического центра InfoWatch, в 2024 г. объем накапливаемых логов в ИС увеличился на 37% по сравнению с предыдущим годом. [1]. Однако полноценно данные раскрываются только при их детальном изучении. Ключевую роль играет статистический анализ, позволяющий выявлять скрытые зависимости между параметрами системы, прогнозировать атаки и обнаруживать аномалии, в том числе связанные с угрозами информационной безопасности (ИБ).

Целью данной работы является демонстрация возможностей статистического анализа данных в информационных системах на практическом примере.

Постановка задачи

Пусть имеется лог-файл информационной системы, содержащий ежечасные записи за 30 дней. Каждая запись включает следующие параметры:

количество запросов в секунду (RPS);
среднее время ответа сервера (мс);
количество ошибок HTTP 5xx;
флаг наличия атаки (1 – атака, 0 – норма).

Необходимо решить следующие задачи;

оценить степень корреляции между параметрами системы;
построить регрессионную модель для прогнозирования количества ошибок;
выявить значимые различия между моментами до атаки и штатными периодами.

Результаты статистического анализа

Важное уточнение, что в статье приведены лишь модельные данные, а также обработка данных выполнялась с использованием языка программирования python и библиотек pandas, scipy.stats, statsmodels.

Корреляционный анализ

На первом этапе была построена матрица корреляций Пирсона между основными параметрами системы. Результаты представлены в табл. 1.

Таблица 1.

Матрица корреляции Пирсона между параметрами ИС

Параметр А	Параметр Б	Коэффициент корреляции	p-значение
RPS	Время ответа	0,72	<0,001
RPS	Ошибки 5xx	0,58	<0,001
Время ответа	Ошибки 5xx	0,63	<0,001
Час суток	RPS	0,41	0,003

Наибольшая положительная корреляция наблюдается между RPS и временем ответа. Это означает, что с увеличением нагрузки пропорционально увеличивается задержка обработки запросов. Статистически значимая связь (p < 0,05) выявлена для всех пар параметров.

Корреляционный анализ Спирмена дал похожие результаты, что подтверждает наши выводы.

Регрессионный анализ

Для прогнозирования количества ошибок была построена модель множественной линейной регрессии:

Ошибки=-10,4+0,21⋅RPS+0,15⋅Время ответа+ε

Формула – это результат линейной регрессии на модельных данных.

Коэффициент детерминации составил R^²=0,67 или же 67% дисперсии количества ошибок объясняется изменениями RPS и временем ответа. Стандартная ошибка регрессии равна 4,2.

Полученное уравнение позволяет оперативно «предугадывать» рост ошибок при увеличении нагрузки.

Выявление зависимостей перед атаками

Следующим этапом было сравнение параметров за один час до начала атаки и в штатные периоды. Использовался t-критерий Стьюдента для независимых выборок. Результаты приведены в табл. 2.

Таблица 2.

Сравнение параметров до атаки и в штатном режиме

Параметр	Среднее до атаки	Среднее в норме	p-значение
RPS (относительное изменение за час)	+22%	+3%	0,008
Доля медленных запросов (>500 мс)	14%	5%	0,002
Частота ошибок 5xx	8,2%	1,4%	<0,001

По таблице можно утверждать, что резкий рост RPS и увеличение доли медленных запросов являются предвестниками атак.

Обсуждение результатов

Исследование показало, что статистический анализ данных информационных систем позволяет:

выявлять количественные зависимости между техническими метриками;
строить прогнозные модели для предотвращения отказов;
обнаруживать статистические аномалии, предшествующие атакам.

Полученные результаты согласуются с современными подходами к построению систем мониторинга ИБ на основе методов машинного обучения и статистики [4].

Заключение

В данной работе на практическом примере показана эффективность статистического анализа данных для выявления зависимостей в информационных системах. Корреляционный анализ позволил установить связи между RPS, временем ответа и ошибками. Регрессионная модель обеспечила прогнозирование ошибок с R^²=0,67. Сравнительный анализ выявил статистические предвестники атак, что может быть использовано в системах раннего обнаружения вторжений.

Список литературы

Утечки информации в мире, 2022–2023 гг. // Экспертно-Аналитический центр InfoWatch. 2024 г. URL: https://www.infowatch.ru/sites/default/files/analytics/files/issledovaniye-utechek-informatsii-v-mire-za-2022-2023-gody.pdf (дата обращения: 14.04.2026)
Сизова Т.М. Статистика для бакалавров. Часть II. СПб: Университет ИТМО, 2016. 70 с.
Дианов Д.В. Прикладные статистические исследования экономической безопасности. М.: Русайнс. 2022. 194 с.
Исмагилова А.С. Комплексная биометрическая аутентификация пользователей информационной системы с применением нейронных сетей / А.С. Исмагилова, Н.Д. Лушников // Инженерный вестник Дона. 2024. № 1 (109). С. 178–188
Корнилова А.А., Гиззатова Э.Р. Математическое моделирование временного ряда количества скомпрометированных персональных данных в мире // Информационные технологии обеспечения комплексной безопасности в цифровом обществе. Уфа: Уфимский университет, 2025. С. 21–24