Введение
Современные информационные системы (ИС) хранят огромные объемы данных: журнал логов, метрики производительности, события безопасности и тому подобное. Согласно данным экспертно-аналитического центра InfoWatch, в 2024 г. объем накапливаемых логов в ИС увеличился на 37% по сравнению с предыдущим годом. [1]. Однако полноценно данные раскрываются только при их детальном изучении. Ключевую роль играет статистический анализ, позволяющий выявлять скрытые зависимости между параметрами системы, прогнозировать атаки и обнаруживать аномалии, в том числе связанные с угрозами информационной безопасности (ИБ).
Целью данной работы является демонстрация возможностей статистического анализа данных в информационных системах на практическом примере.
Постановка задачи
Пусть имеется лог-файл информационной системы, содержащий ежечасные записи за 30 дней. Каждая запись включает следующие параметры:
- количество запросов в секунду (RPS);
- среднее время ответа сервера (мс);
- количество ошибок HTTP 5xx;
- флаг наличия атаки (1 – атака, 0 – норма).
Необходимо решить следующие задачи;
- оценить степень корреляции между параметрами системы;
- построить регрессионную модель для прогнозирования количества ошибок;
- выявить значимые различия между моментами до атаки и штатными периодами.
Результаты статистического анализа
Важное уточнение, что в статье приведены лишь модельные данные, а также обработка данных выполнялась с использованием языка программирования python и библиотек pandas, scipy.stats, statsmodels.
Корреляционный анализ
На первом этапе была построена матрица корреляций Пирсона между основными параметрами системы. Результаты представлены в табл. 1.
Таблица 1.
Матрица корреляции Пирсона между параметрами ИС
|
Параметр А |
Параметр Б |
Коэффициент корреляции |
p-значение |
|
RPS |
Время ответа |
0,72 |
<0,001 |
|
RPS |
Ошибки 5xx |
0,58 |
<0,001 |
|
Время ответа |
Ошибки 5xx |
0,63 |
<0,001 |
|
Час суток |
RPS |
0,41 |
0,003 |
Наибольшая положительная корреляция наблюдается между RPS и временем ответа. Это означает, что с увеличением нагрузки пропорционально увеличивается задержка обработки запросов. Статистически значимая связь (p < 0,05) выявлена для всех пар параметров.
Корреляционный анализ Спирмена дал похожие результаты, что подтверждает наши выводы.
Регрессионный анализ
Для прогнозирования количества ошибок была построена модель множественной линейной регрессии:

Формула – это результат линейной регрессии на модельных данных.
Коэффициент детерминации составил
Полученное уравнение позволяет оперативно «предугадывать» рост ошибок при увеличении нагрузки.
Выявление зависимостей перед атаками
Следующим этапом было сравнение параметров за один час до начала атаки и в штатные периоды. Использовался t-критерий Стьюдента для независимых выборок. Результаты приведены в табл. 2.
Таблица 2.
Сравнение параметров до атаки и в штатном режиме
|
Параметр |
Среднее до атаки |
Среднее в норме |
p-значение |
|
RPS (относительное изменение за час) |
+22% |
+3% |
0,008 |
|
Доля медленных запросов (>500 мс) |
14% |
5% |
0,002 |
|
Частота ошибок 5xx |
8,2% |
1,4% |
<0,001 |
По таблице можно утверждать, что резкий рост RPS и увеличение доли медленных запросов являются предвестниками атак.
Обсуждение результатов
Исследование показало, что статистический анализ данных информационных систем позволяет:
- выявлять количественные зависимости между техническими метриками;
- строить прогнозные модели для предотвращения отказов;
- обнаруживать статистические аномалии, предшествующие атакам.
Полученные результаты согласуются с современными подходами к построению систем мониторинга ИБ на основе методов машинного обучения и статистики [4].
Заключение
В данной работе на практическом примере показана эффективность статистического анализа данных для выявления зависимостей в информационных системах. Корреляционный анализ позволил установить связи между RPS, временем ответа и ошибками. Регрессионная модель обеспечила прогнозирование ошибок с
Список литературы
- Утечки информации в мире, 2022–2023 гг. // Экспертно-Аналитический центр InfoWatch. 2024 г. URL: https://www.infowatch.ru/sites/default/files/analytics/files/issledovaniye-utechek-informatsii-v-mire-za-2022-2023-gody.pdf (дата обращения: 14.04.2026)
- Сизова Т.М. Статистика для бакалавров. Часть II. СПб: Университет ИТМО, 2016. 70 с.
- Дианов Д.В. Прикладные статистические исследования экономической безопасности. М.: Русайнс. 2022. 194 с.
- Исмагилова А.С. Комплексная биометрическая аутентификация пользователей информационной системы с применением нейронных сетей / А.С. Исмагилова, Н.Д. Лушников // Инженерный вестник Дона. 2024. № 1 (109). С. 178–188
- Корнилова А.А., Гиззатова Э.Р. Математическое моделирование временного ряда количества скомпрометированных персональных данных в мире // Информационные технологии обеспечения комплексной безопасности в цифровом обществе. Уфа: Уфимский университет, 2025. С. 21–24


