КЛАСТЕРИЗАЦИЯ ПОЛУЧАТЕЛЕЙ МЕР СОЦИАЛЬНОЙ ПОДДЕРЖКИ НА ОСНОВЕ АДМИНИСТРАТИВНЫХ ПРИЗНАКОВ

КЛАСТЕРИЗАЦИЯ ПОЛУЧАТЕЛЕЙ МЕР СОЦИАЛЬНОЙ ПОДДЕРЖКИ НА ОСНОВЕ АДМИНИСТРАТИВНЫХ ПРИЗНАКОВ

Авторы публикации

Рубрика

Экономика и управление

Просмотры

3

Журнал

Журнал «Научный лидер» выпуск # 21 (274), Май ‘26

Поделиться

В статье предложен подход к кластеризации получателей мер социальной поддержки на основе обезличенных административных признаков и ранее рассчитанного индекса социальной уязвимости. Обычная отчетность показывает количество назначенных мер, но плохо раскрывает типы получателей, которые стоят за строками реестра: семьи с иждивенцами, одинокие пожилые граждане, получатели с частыми обращениями, граждане с высокой зависимостью от выплат. Для сегментации используется алгоритм k-средних, стандартизация признаков, оценка внутрикластерной суммы квадратов и содержательная интерпретация центров кластеров. Особое внимание уделено выбору числа кластеров и управленческому смыслу полученных групп. Кластеризация рассматривается как инструмент анализа и приоритизации внимания специалистов, а не как механизм автоматического принятия административных решений.

Социальная поддержка чаще всего видит человека через основание выплаты: малоимущая семья, инвалидность, одинокое проживание, наличие детей, повторное обращение. Для учета этого достаточно. Для управления — мало. В реестре рядом стоят низкий доход, иждивенцы, выплаты и частые обращения, а специалисту приходится держать в голове десятки сочетаний. Кластеризация нужна именно здесь: она собирает похожие административные профили в группы, с которыми можно работать.

Федеральный закон № 178-ФЗ закрепляет правовые и организационные основы государственной социальной помощи, а ЕГИССО формирует информационную среду, где сведения о мерах социальной защиты, получателях, документах, статистике и аналитике становятся частью единого контура [1; 3]. Закон № 152-ФЗ требует осторожного обращения с персональными данными, поэтому в исследовательской модели используются обезличенные записи [2]. В анализ идут не фамилия и адрес, а технический идентификатор, возраст, доход, состав семьи, выплаты, обращения, район и расчетный индекс уязвимости.

Цель статьи состоит в разработке подхода к кластеризации получателей мер социальной поддержки на основе административных признаков и индекса социальной уязвимости. Такая постановка отличается от обычной отчетности по льготным категориям. Отчет показывает, сколько граждан получили ту или иную меру. Кластеризация показывает, какие типы получателей образуются внутри массива: кто приходит часто, кто почти полностью зависит от выплат, у кого основная проблема связана с семейной нагрузкой, а у кого высокий индекс складывается из нескольких умеренных факторов сразу.

Алгоритм k-средних выбран из-за понятной логики и пригодности для больших табличных массивов. Дж. Маккуин описал k-means как процедуру разбиения многомерной совокупности на k групп [4]. В современных библиотеках этот алгоритм используется для минимизации внутрикластерной суммы квадратов; документация scikit-learn отдельно указывает на необходимость заранее заданного числа кластеров [5]. Для социальной поддержки это удобно: муниципальный массив может содержать тысячи записей, а метод работает без ручной разметки каждого случая.

Единицей кластеризации выступает обезличенная запись получателя. В признаковое пространство включаются возраст, среднедушевой доход, размер семьи, иждивенцы, занятость, инвалидность, выплаты, обращения, давность последнего обращения, районный коэффициент и индекс социальной уязвимости. Индекс не заменяет исходные признаки, а добавляет сжатую оценку общей напряженности. Только индекс обедняет модель; только отдельные признаки размывают общий уровень уязвимости.

Перед кластеризацией данные очищаются и стандартизируются. Без этого алгоритм начнет группировать шкалы измерения, а не получателей. Доход выражается в рублях, возраст - в годах, обращения - в штуках, индекс - в баллах. Поэтому числовые переменные приводятся к сопоставимому виду, а категориальные признаки кодируются так, чтобы они не создавали ложный порядок.

 (1)

где:

xij - исходное значение j-го признака у i-го получателя

zij - стандартизированное значение признака

mj - среднее значение j-го признака

sj - стандартное отклонение j-го признака

После стандартизации формируется матрица признаков. Для каждого получателя модель видит не историю жизни и не юридическое основание выплаты, а набор чисел, отражающих административный профиль. В этом есть холодность метода, и ее нельзя прятать. Кластеризация не слышит объяснение заявителя, не различает случайную ошибку и резкое ухудшение ситуации. Ее сила в другом: она быстро показывает, какие записи похожи между собой и где в массиве возникают повторяющиеся социальные конфигурации.

Формально k-средних разбивает множество стандартизированных наблюдений на k кластеров так, чтобы расстояние между записями и центрами своих кластеров было минимальным. Внутри социальной задачи это читается проще: модель ищет группы получателей, в которых признаки складываются похожим образом. Один центр может соответствовать семьям с иждивенцами и высокой зависимостью от выплат, другой - одиноким пожилым получателям, третий - гражданам с частыми обращениями и средним уровнем доходной уязвимости.

 (2)

где:

- внутрикластерная сумма квадратов

nr - количество записей в r-м кластере

zir - стандартизированный вектор i-й записи r-го кластера

μr - центр r-го кластера

- число кластеров

Центр кластера рассчитывается как среднее значение векторов признаков, попавших в соответствующую группу. Это не “типичный человек” в бытовом смысле, а расчетный профиль. Но именно такой профиль удобен для интерпретации: по нему видно, что в одном кластере выше обращения, в другом - иждивенческая нагрузка, в третьем - возраст и зависимость от выплат.

 (3)

где:

μr - центр r-го кластера

nr - количество записей в r-м кластере

zir - вектор признаков i-й записи r-го кластера

Самое уязвимое место кластеризации - выбор числа кластеров. Два кластера почти неизбежно разобьют массив на условно легкие и тяжелые профили, а внутри потеряются различия. Десять кластеров дадут мелкую нарезку, которую трудно объяснить и использовать в отчете. Поэтому k выбирается по двум основаниям: техническому и управленческому. Техническая проверка смотрит на инерцию и силуэт; управленческая отвечает на более жесткий вопрос: сможет ли специалист назвать каждый кластер и понять, что с ним делать.

Для пилотной модели разумным стартом является k = 5. Такое число не дробит массив до бессмысленных микрогрупп и при этом не сжимает разные ситуации в две грубые категории. Пять кластеров позволяют отдельно увидеть умеренную нагрузку, семейную иждивенческую нагрузку, одиночное пожилое проживание, высокую обращаемость и плотную группу высокой уязвимости. Если после расчета две группы почти не отличаются по центрам, k можно уменьшить. Если один кластер оказывается слишком широким и внутри него смешиваются разные профили, k можно увеличить. В статье k = 5 рассматривается не как догма, а как рабочая конфигурация для первой интерпретации.

Названия кластеров не должны превращаться в ярлыки. Они нужны специалисту, чтобы быстрее понимать массив, но не должны подменять индивидуальную оценку. Получатель из кластера высокой обращаемости не обязан быть “проблемным заявителем”. Возможно, у него менялся состав семьи, документы несколько раз возвращались из-за ошибки, или межведомственная информация приходила с задержкой. Кластер дает повод посмотреть внимательнее, а не повод делать вывод за человека.

Таблица 1.

Административные признаки и их роль в кластеризации

Группа признаков

Примеры переменных

Что помогает увидеть

Материальное положение

доход, социальные выплаты, доля выплат

зависимость семьи от регулярной поддержки

Семейная нагрузка

размер семьи, иждивенцы, возраст

нагрузку на ограниченный доход

Социальный статус

занятость, инвалидность, семейное положение

устойчивые ограничения выхода из нуждаемости

Обращаемость

число обращений, дата последнего обращения

повторный контакт с системой социальной защиты

Интегральная оценка

индекс социальной уязвимости

общий уровень социальной напряженности профиля

 

Таблица показывает, что кластеризация не строится вокруг одного признака. Это принципиально: в социальной сфере опасно группировать получателей только по доходу или только по числу обращений. Низкий доход при малой семейной нагрузке и редких обращениях дает один профиль; тот же доход при инвалидности, иждивенцах и высокой доле выплат дает уже другую ситуацию для специалиста. Индекс социальной уязвимости нужен именно для того, чтобы эта разница не исчезала в общей массе строк.

Таблица 2.

Интерпретационная модель пяти кластеров

Кластер

Рабочее название

Отличительный профиль

Управленческий смысл

1

Умеренная нагрузка

доход около порога, редкие обращения, умеренный индекс

обычное наблюдение

2

Семьи с иждивенцами

крупная семья, иждивенцы, значимая доля выплат

контроль семейной нагрузки

3

Одинокие пожилые получатели

высокий возраст, малый состав семьи, регулярная поддержка

сопровождение и доступность услуг

4

Высокая обращаемость

частые и недавние обращения

причины повторных контактов

5

Высокая уязвимость

одновременно выражены доход, выплаты, обращения, статус

приоритетное внимание

 

Интерпретационная модель не является эмпирическим результатом сама по себе; она задает язык, на котором читаются центры кластеров после расчета. Если алгоритм выдал пять групп, а исследователь не может описать их без слов “кластер 0” и “кластер 1”, модель еще не стала инструментом управления. Таблица 2 фиксирует профили, которые имеют смысл для социальной службы.

Оценивать качество кластеризации только внутренней метрикой недостаточно. Силуэт, инерция и расстояния между центрами полезны, но они не отвечают на главный вопрос: может ли специалист объяснить полученные группы. Поэтому после расчета строится профиль каждого кластера: средний возраст, средний индекс уязвимости, доля инвалидности, число обращений, размер семьи, зависимость от выплат и распределение по районам.

Для дополнительной проверки можно использовать силуэтный коэффициент. Он сравнивает близость записи к своему кластеру и удаленность от соседнего кластера. Высокое значение говорит о более четком разделении групп, низкое - о смешении профилей. Но и здесь нужна осторожность: социальные данные редко дают идеально круглые облака точек. Люди не обязаны укладываться в геометрию алгоритма.

 (4)

где:

si - силуэтный коэффициент i-й записи

ai - среднее расстояние до записей своего кластера

bi - минимальное среднее расстояние до записей ближайшего другого кластера

Практический результат кластеризации проявляется в отчетах. Вместо длинной таблицы специалист получает несколько групп с понятным профилем: где проверить доходы, где посмотреть семейную нагрузку, где разобраться с частыми обращениями, где оценить зависимость от выплат. Так исчезает слепая зона, где разные случаи выглядят одинаково из-за формальной отчетности.

В связке с районным анализом модель становится еще полезнее. Повышенная доля кластера высокой обращаемости может указывать на перегрузку специалистов, проблемы документооборота или слабую доступность консультаций; концентрация семей с иждивенцами требует другого управленческого разговора - о семейной поддержке и устойчивости выплат. Так кластеризация перестает быть техническим приемом и превращается в карту нагрузки для муниципальной системы.

Ограничения метода нельзя прятать в конце как формальность. K-means чувствителен к масштабу признаков, начальному выбору центров и заранее заданному числу кластеров. Он лучше работает с компактными группами и может плохо описывать сложные, вытянутые или пересекающиеся структуры. В социальных данных это обычная ситуация: профиль семьи может одновременно быть похожим на группу с высокой иждивенческой нагрузкой и на группу с высокой зависимостью от выплат. Поэтому результат должен проверяться специалистом, а не приниматься как окончательная классификация.

Есть и правовое ограничение. Даже обезличенный массив требует аккуратной работы, потому что сочетание возраста, района, семейного состава, инвалидности и выплат может оставаться чувствительным. Для практического применения нужны разграничение доступа, журналирование действий, запрет лишней выгрузки детальных записей и отдельное хранение сведений, которые могут восстановить идентификацию. Без этого аналитика быстро теряет доверие, а в социальной сфере доверие стоит дороже любой модели.

Предложенный подход использует кластеризацию как следующий шаг после расчета индекса социальной уязвимости. Индекс дает общий балл напряженности, а k-means показывает, какие типы получателей стоят за этим баллом. В результате орган социальной защиты получает рабочую карту массива: где преобладает семейная нагрузка, где повторная обращаемость, где зависимость от выплат, где умеренный профиль, а где несколько факторов сжимаются в тяжелую комбинацию. Такая карта нужна муниципальному управлению, потому что решения принимаются не по среднему получателю, которого в жизни не существует, а по группам с разными причинами уязвимости.

Научная ценность статьи состоит в соединении административных признаков, индекса социальной уязвимости и метода k-средних в единую процедуру сегментации получателей мер поддержки. Практическая ценность связана с возможностью встроить результат в программное решение: подготовка признаков, расчет индекса, кластеризация, интерпретация групп и районные отчеты. Такой порядок помогает перейти от учета выплат к анализу социальных профилей.

Список литературы

  1. Федеральный закон от 17.07.1999 № 178-ФЗ «О государственной социальной помощи»
  2. Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных»
  3. Единая государственная информационная система социального обеспечения: официальный информационный ресурс. URL: https://www.egisso.ru/
  4. MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations // Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. 1967. Vol. 1. P. 281–297
  5. Scikit-learn documentation. KMeans. URL: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
  6. Бычков Д. Г., Гришина Е. Е., Емцов Р. Г., Феоктистова О. А., Андреева Е. И. Развитие эффективной социальной поддержки населения в России: адресность, нуждаемость, универсальность. Научный доклад. М.: НИФИ, 2017
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 4 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее