Журнал «Научный лидер» выпуск #13 (266), Март ‘26

КЛАСТЕРНЫЙ АНАЛИЗ СУБЪЕКТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ ПО ПОКАЗАТЕЛЯМ БИБЛИОТЕЧНОГО ОБСЛУЖИВАНИЯ НАСЕЛЕНИЯ

Авторы публикации

Толмачев Владимир Иванович

Рубрика

Прочее

Просмотры

274

Журнал

Журнал «Научный лидер» выпуск # 13 (266), Март ‘26

В статье рассматривается применение метода кластерного анализа (алгоритм k-средних) к официальным статистическим данным о деятельности общедоступных библиотек субъектов Российской Федерации за 2024 год (Таблица 11 справочника ГИВЦ Минкультуры России). На основе двух ключевых индикаторов — охвата населения и обеспеченности одного пользователя фондами — проведена типологизация 85 регионов. Выделены четыре содержательно различных кластера: «Лидеры охвата» (северные регионы с охватом свыше 78%), «Мегаполисы» (г. Москва — кластер-выброс, n=1), «Крепкие середняки» (традиционные сети Центральной России) и «Регионы дефицита ресурсов» (крупнейший гетерогенный кластер, n=57, включая г. Санкт-Петербург). Дополнительно проведён корреляционный анализ: выявлена высокая значимая связь финансирования с посещаемостью (r = 0,946; p < 0,001) и установлено отсутствие статистически значимой связи финансирования с охватом населения (ρ = 0,189; p = 0,558). Статья носит методический характер и предназначена для специалистов и студентов, осваивающих методы прикладной математической статистики.

корреляционный анализ

математическая статистика

кластерный анализ

k-средних

библиотечная статистика

регионы России

библиотечное обслуживание

1. Актуальность и постановка проблемы

Библиотеки являются одним из ключевых социокультурных институтов государства. По данным справочника «Библиотеки Российской Федерации в цифрах — 2024», опубликованного ГИВЦ Минкультуры России, по состоянию на конец 2024 года в стране функционирует 35 958 общедоступных библиотек (без структурных подразделений), охватывающих 36,5% населения страны. Всего по всем ведомствам функционирует 40 724 библиотеки (включая структурные подразделения). При этом между регионами наблюдается колоссальная дифференциация: показатель охвата населения библиотечным обслуживанием колеблется от 11,3% (г. Москва — последнее, 85-е место) до 111,1% (Ямало-Ненецкий АО — 1-е место, значение выше 100% объясняется учётом вахтовых работников и временно пребывающих).

Такая неоднородность ставит перед исследователями задачу типологизации субъектов РФ: необходимо выявить группы регионов со схожими профилями библиотечного обслуживания, чтобы вырабатывать дифференцированные управленческие решения. Инструментарием для решения подобных задач служит кластерный анализ — один из базовых методов многомерной математической статистики.

Актуальность исследования обусловлена тремя факторами. Во-первых, наличием открытых официальных статистических данных с детализацией до уровня субъектов РФ, что позволяет провести полноценный количественный анализ. Во-вторых, выраженной межрегиональной дифференциацией в развитии библиотечного дела, требующей структурированного объяснения. В-третьих, методической ценностью: задача представляет собой «живой» учебный пример применения кластерного анализа и корреляционных методов к реальным социокультурным данным.

2. Введение: цель, задачи и методология

Цель работы — провести типологизацию субъектов Российской Федерации по уровню развития системы общедоступного библиотечного обслуживания на основе данных 2024 года с применением методов математической статистики.

Задачи исследования:

Отобрать систему показателей, характеризующих библиотечное обслуживание населения;
Провести стандартизацию переменных для обеспечения сопоставимости шкал;
Применить алгоритм k-средних для кластеризации регионов;
Интерпретировать полученные кластеры и описать профили типичных групп;
Оценить корреляцию между финансированием библиотек и ключевыми показателями качества обслуживания.

Информационной базой исследования служит официальный статистический справочник «Библиотеки Российской Федерации в цифрах — 2024», подготовленный ФГБУ «ГИВЦ Минкультуры России» на основе формы федерального статистического наблюдения № 6-НК. Справочник содержит данные по всем 85 субъектам РФ (без учёта ДНР, ЛНР, Запорожской и Херсонской областей) по состоянию на конец 2024 года, а также временны́е ряды за период 2020–2024 годов.

Основным статистическим методом является кластерный анализ методом k-средних. Дополнительно применяются: описательная статистика, стандартизация данных (z-оценки), вычисление коэффициента корреляции Пирсона и ранговой корреляции Спирмена для анализа связи между финансовыми и качественными показателями.

3. Система показателей и исходные данные

Для кластерного анализа по каждому субъекту РФ сформирована матрица наблюдений размером n × p, где n = 85 (число регионов), p = 6 (число переменных). Переменные отобраны таким образом, чтобы охватить различные аспекты библиотечного обслуживания: доступность (охват), ресурсная обеспеченность (фонд), интенсивность использования (выдача, посещения) и кадровый потенциал (нагрузка на персонал).

Таблица 1.

Ключевые показатели библиотечного обслуживания РФ в 2024 году

Выдача фонда (млн экз.)	1 054,6	+31,1%
Численность основного персонала (чел.)	102 653	−2,2%
Нагрузка на 1 работника (пользователей/чел.)	521	+24,3%

Источник: Справочник «Библиотеки Российской Федерации в цифрах — 2024». ГИВЦ Минкультуры России, 2025.

Данные таблицы демонстрируют противоречивые тенденции: при росте числа пользователей (+21,3%) и охвата населения наблюдается сокращение библиотечного фонда (+5,2% (с 5,7 до 6,0)) и персонала (−2,2%), что порождает нарастающую нагрузку на одного сотрудника (+24,3%). Резкий прирост числа посещений в стационарных условиях (+67,0%) объясняется преимущественно эффектом низкой базы 2020 года, когда посещаемость библиотек была минимальной из-за введённых санитарных ограничений; корректнее сравнивать показатели с 2019 годом, относительно которого прирост составляет около 12%. Сводные цифры скрывают значительную межрегиональную вариацию, выявить которую призван кластерный анализ.

4. Методика кластерного анализа и корреляционного анализа

4.1. Стандартизация данных. Перед кластеризацией все переменные приводятся к стандартному нормальному распределению по формуле z-оценки:

где x_ij — значение j-й переменной для i-го региона, x̄_j — среднее значение переменной по всей выборке, s_j — её среднеквадратическое отклонение. Стандартизация устраняет эффект несопоставимых единиц измерения (проценты охвата, экземпляры на жителя, тысячи посещений и т.д.).

4.2. Выбор числа кластеров. Оптимальное число кластеров определяется с помощью метода «локтя»: строится зависимость суммы внутрикластерных дисперсий (WCSS) от числа кластеров k. Характерный перегиб кривой при k = 4 свидетельствует о целесообразности выделения четырёх типологических групп регионов. Выбор дополнительно верифицируется с помощью коэффициента силуэта (среднее значение s̅ = 0,42 при k = 4), который подтверждает приемлемое качество разбиения: значения в диапазоне 0,4–0,7 считаются удовлетворительными [7]. Следует, однако, учитывать, что г. Москва образует кластер-выброс (n=1) с экстремально высокой фондообеспеченностью, что несколько снижает итоговый показатель.

4.3. Алгоритм k-средних. Метод k-средних минимизирует суммарное внутрикластерное евклидово расстояние:

где C_k — k-й кластер, μ_k — его центроид (вектор средних значений по всем переменным). Алгоритм итеративно перераспределяет наблюдения между кластерами до сходимости. Для устойчивости результата процедура запускается многократно с различными начальными центроидами по стратегии k-means++, предложенной в работе [8]. Следует учитывать, что алгоритм k-средних чувствителен к выбросам: субъекты с экстремальными значениями показателей (прежде всего г. Москва и г. Санкт-Петербург) рассматривались отдельно перед включением в общий анализ для исключения их дестабилизирующего влияния на центроиды.

4.4. Корреляционный анализ. Для изучения связи финансирования с показателями обслуживания вычисляются: коэффициент линейной корреляции Пирсона r и ранговый коэффициент Спирмена ρ. Статистическая значимость проверяется по t-критерию при уровне значимости α = 0,05. Гипотеза H₀ об отсутствии корреляции отвергается при |t| > t_{кр}= 1,99 (при df = 83).

5. Результаты и интерпретация

По результатам кластерного анализа все 85 субъектов Российской Федерации распределены по четырём типологическим группам. Центроиды кластеров и содержательные характеристики представлены в таблице 2.

Таблица 2.

Типология регионов РФ по показателям библиотечного обслуживания (2024 г.)

Кластер	Характеристика	Охват нас., %	Обеспеч. фондами, ед/чел	Примеры субъектов РФ
1 — «Лидеры охвата»	Аномально высокий охват (>78%) из-за специфики учёта пользователей (вахтовики). Низкая обеспеченность пользователя фондами.	> 78%	< 17,0	ЯНАО (111,1%), Чукотский АО (91,8%), Сахалинская обл. (78,4%)
2 — «Крепкие середняки»	Высокий охват (45–63%), сбалансированная нагрузка на персонал, устойчивая традиционная сеть. Доминирует сельская составляющая.	45–63%	8,9–18,8	Белгородская (59,0%), Тамбовская (54,4%), Кировская (60,7%), Пензенская (57,6%) обл.
3 — «Мегаполисы» (n=1)	Кластер-выброс (n=1): Москва образует обособленную группу вследствие экстремально высокой фондообеспеченности. Минимальный охват при максимальной фондообеспеченности в стране. Альтернативные источники информации снижают обращаемость.	11,3%	107,4	г. Москва (11,3%, 107 ед/польз.) — единственный регион в кластере
4 — «Регионы дефицита ресурсов»	Крупнейший и наиболее неоднородный кластер (n=57). Охватывает регионы с демографическим давлением (Кавказ), пригороды мегаполисов и г. Санкт-Петербург — внутренний выброс по фондообеспеченности (42,9 ед./польз.).	19–45%	3,5–43	Респ. Дагестан (24,8%), Ингушетия (20,1%), Московская обл. (20,0%), Ленинградская обл. (30,8%), г. Санкт-Петербург (23,2%)

Кластер 1 («Лидеры охвата») объединяет регионы Крайнего Севера и Дальнего Востока. Официальная статистика фиксирует здесь охват свыше 78% (ЯНАО — 111,1%, Чукотский АО — 91,8%, Сахалин — 78,4%). Значения выше 100% объясняются спецификой учёта: библиотеки активно посещают вахтовые рабочие и временно пребывающие граждане, не включённые в постоянное население. Из-за раздутой базы пользователей обеспеченность фондами на одного читателя снижается до минимума (ЯНАО — 2,4 ед./польз., Чукотка — 15,0 ед./польз.).

Кластер 2 («Крепкие середняки») — исторические регионы Центральной России, Поволжья, Сибири и Дальнего Востока с высокой долей сельского населения. Демонстрируют устойчивую и сбалансированную работу традиционной библиотечной сети при охвате 45–63% и фондообеспеченности 8,9–18,8 ед./польз. Сюда входят 24 субъекта РФ, в том числе Белгородская (59,0%), Тамбовская (54,4%), Кировская (60,7%), Пензенская (57,6%) области, а также ряд регионов Сибири и Дальнего Востока — Красноярский край (48,4%), Респ. Саха (47,7%), Камчатский край (56,6%). Кластер 3 («Мегаполисы») — единственный регион: г. Москва. Алгоритм k-средних выделил её в обособленный кластер-выброс (n=1) из-за экстремального значения фондообеспеченности (107,4 ед./польз.) — результат гигантского библиотечного фонда при относительно небольшой базе зарегистрированных пользователей. Санкт-Петербург (23,2%, 42,9 ед./польз.) по своим характеристикам не достиг порога выделения в отдельный кластер и попал в кластер 4. Это методически значимый результат: несмотря на схожий профиль двух мегаполисов, г. Москва является абсолютным статистическим выбросом.

Кластер 4 («Регионы дефицита ресурсов») — крупнейший и наиболее неоднородный кластер (n=57, охват 19–45%, фондообеспеченность 3,5–42,9 ед./польз.). Включает принципиально разные группы регионов. Для республик Северного Кавказа (Дагестан — 24,8%, Ингушетия — 20,1%) характерно демографическое давление при дефиците финансирования. В густонаселённых областях вокруг мегаполисов (Московская обл. — 20,0%, Ленинградская — 30,8%) библиотечная инфраструктура не успевает за ростом жилой застройки. Особняком стоит г. Санкт-Петербург (23,2%, фондообеспеченность 42,9 ед/польз.) — внутренний высокоресурсный выброс внутри кластера, не достигший порога формирования отдельной группы. В кластер также входит Чеченская Республика (43,1%) — наиболее высокий охват в группе, однако крайне низкая фондообеспеченность (3,5 ед./польз.) вследствие высокой плотности зарегистрированных пользователей при скромном объёме фонда — именно это определило её попадание в данный кластер, а не в «Крепкие середняки».

Корреляционный анализ (n = 12 регионов из Таблицы 11 сборника) выявил принципиально различные картины для двух пар переменных. Коэффициент линейной корреляции Пирсона между удельным финансированием и посещаемостью составил r = 0,946 (p = 1,03 × 10⁻⁵): связь высокая и высоко значимая — рост бюджетных ассигнований на одного пользователя напрямую конвертируется в рост активности посещений. Напротив, ранговый коэффициент Спирмена между финансированием и охватом населения оказался незначимым (ρ = 0,189; p = 0,558): нулевая гипотеза об отсутствии связи не отвергается. Это принципиальный вывод: охват населения определяется не бюджетом, а демографической структурой, степенью урбанизации и географическими особенностями региона. Следует учитывать ограничение анализа: выборка составляет n = 12 регионов, что снижает мощность теста. Для полноценных выводов необходимо использовать данные по всем 85 субъектам РФ. Тем не менее направление эффектов (высокая r при посещаемости и близкое к нулю ρ при охвате) соответствует логике библиотечной статистики и является теоретически обоснованным.

6. Заключение

Проведённое исследование демонстрирует эффективность применения кластерного анализа и корреляционных методов к задачам анализа библиотечной статистики. Полученная типология регионов позволяет перейти от единой усреднённой картины к дифференцированному взгляду на развитие библиотечного дела в России.

С методической точки зрения данный пример иллюстрирует полный цикл применения математико-статистического инструментария: постановку задачи → отбор и стандартизацию переменных → кластеризацию → оценку качества разбиения (метод «локтя» и коэффициент силуэта) → корреляционный анализ → содержательную интерпретацию. Практическая значимость результатов состоит в возможности их использования при разработке региональных программ поддержки библиотечной отрасли. Вместе с тем необходимо учитывать ограничения метода k-средних: алгоритм предполагает сферическую форму кластеров и чувствителен к выбросам; официальные показатели не охватывают цифровое обслуживание, доля которого стремительно растёт. Для более глубокой верификации результатов рекомендуется применение иерархических методов кластеризации (метод Уорда) в качестве альтернативы.

Список литературы

Библиотеки Российской Федерации в цифрах. 2024 год: справочник / ФГБУ «ГИВЦ Минкультуры России»; Огородникова О.В., Лазарева А.О.; отв. исп. Гущина Н.В. — М.: ГИВЦ Минкультуры России, 2025
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. — М.: ЮНИТИ, 2001. — 1022 с.
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. — М.: ИНФРА-М, 1998. — 528 с.
Статистика культуры: учеб. пособие / под ред. А.В. Соколова. — СПб.: СПбГИК, 2020. — 244 с.
Hartigan J.A., Wong M.A. Algorithm AS 136: A K-Means Clustering Algorithm // Journal of the Royal Statistical Society. Series C. — 1979. — Vol. 28, No. 1. — P. 100–108
Форма федерального статистического наблюдения № 6-НК «Сведения об общедоступной (публичной) библиотеке», утверждённая приказом Росстата от 18.10.2021 № 713
Rousseeuw P.J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics. — 1987. — Vol. 20. — P. 53–65
Arthur D., Vassilvitskii S. k-means++: The advantages of careful seeding // Proceedings of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms (SODA). — 2007. — P. 1027–1035