НЕЙРОСЕТЕВАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ ПРЕДРАСПОЛОЖЕННОСТИ К ИНСУЛЬТУ

НЕЙРОСЕТЕВАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ ПРЕДРАСПОЛОЖЕННОСТИ К ИНСУЛЬТУ

Авторы публикации

Рубрика

Информационные технологии

Просмотры

44

Журнал

Журнал «Научный лидер» выпуск # 25 (226), Июнь ‘25

Поделиться

В статье представлено описание разработки нейросетевой системы для прогнозирования предрасположенности к инсульту. Система позволяет предсказать риск инсульта на основании данных о поле, возрасте, медицинских и других показателях.

Введение. Прогнозирование предрасположенности к инсульту является одной из актуальных и важных для изучения тем в настоящее время. Несмотря на значительные усилия ученых всего мира, одной из сложнейших и актуальных медико-социальных проблем остается инсульт [4]. По смертности заболевания сосудов головного мозга занимает второе место среди болезней системы кровообращения и общей смертности населения нашей страны [3]. Факторами риска инсульта являются хронические заболевания, такие как гипертония, сахарный диабет, ожирение, малоподвижный образ жизни. Факторы, влияющие на женщин и мужчин в процентном соотношении представлены в таблице ниже.

Таблица 1.

Частота встречаемости факторов риска у мужчин и женщин (%) [3]

Примечание. * - различия статистически значимы (р < 0,05).

Из таблицы следует, что самым часто встречающимся фактором риска является артериальная гипертензия.

В результате исследования будут выявлены критерии, влияющие на риск инсульта в большей степени. Работа будет выполнятся с помощью двух инструментов, сравнение которых будет также описано в данной статье.

Данная работа поможет гражданам более полно определить предрасположенность к инсульту, учитывая не только критерии о наличии хронических заболеваний сердечно-сосудистой системы, но и такие факторы как вид деятельности (работа), курение, возраст, индекс массы тела, уровень глюкозы в крови, отношение к курению и образ жизни. Для медицинского персонала данная система будет полезной для подтверждения своих гипотез о наличии риска инсульта у пациентов.

Постановка задачи и формирование датасета.

Для создания нейросетевой системы были выбраны следующие параметры: X1 — пол, X2 — возраст, X3 — наличие гипертонии, X4 — наличие болезней сердца, X5 — женат/замужем, X6 — тип работы, X7 — житель сельской местности или города, X8 — средний уровень глюкозы, X9 — индекс массы тела, X10 — статус курения. Выходной параметр D1 — наличие предрасположенности к инсульту.

Параметры были собраны с сайта Kaggle. Исходный набор данных с данного сайта был непригоден для работы по нескольким причинам. Во-первых, датасет был не сбалансирован. В датасете доля строк со значением D1 равными 1 равнялась всего 4,89%. Данная проблема была решена сокращением выборки. Во-вторых, признаки не были приведены к бинарным или числовым. Для преобразования категориальных столбцов в числовые и бинарные был применен метод ярлычного кодирования (Label Encoding) при обработке датафрейма на языке Python. Таким образом, параметры X1, X3, X4, X5 — имеют значения 0 и 1. Параметры X6, X7, X10 — целые значения от 0 до 3. Объем итогового множества составил 375 примеров, которые были перемешаны и разделены на обучающее и тестовое множества в соотношении 80% и 20%.

Проектирование, обучение и тестирование нейросети в «Нейросимулятор 5».

Первоначальный вариант нейросети выполнялся в программе Нейросимулятор 5. Нейросеть представляет собой двухслойный персептрон с десятью входными нейронами, пятнадцатью нейронами на скрытом слое и одним нейроном на выходном слое. Данное количество нейронов на скрытом слое необходимо для обучения модели с наименьшей ошибкой. Так как при малом количестве нейронов ошибка не снижалась, данное количество было увеличено до 15.

Обучение сети производилось на 300 примерах обучающего, тестирование — на 75 примерах. Средняя ошибка тестирования составила 17% при допустимой ошибке 20% для медицины. Ошибка получилась меньше, чем в аналогичной работе, где она равна 24% [2]. На рисунке 1 представлена диаграмма с вычисленным коэффициентом детерминации R2, демонстрирующая разницу между значениями D1 и Y1, где D1 — фактическое значение, Y1 — прогнозное значение. На диаграмме отображены 29 примеров из тестового множества.

Рисунок 1. Результат тестирования нейросети в Нейросимуляторе

 

Как и в работе Андреевна И. В. при оценке результатов значения, которые были выше 0.5 – определяли наличие инсульта, а то, что ниже –отсутствие инсульта [2]. По гистограмме можно сделать вывод о том, что спроектированная нейронная сеть работает приемлемо.

Исследование предметной области.

Была проведена оценка значимости параметров в Нейросимуляторе. Наиболее значимыми являются возраст и индекс массы тела. Значимость параметров представлена на рисунке 2.

Рисунок 2. Значимость параметров в нейросети

 

Датасет также был обработан на языке программирования python. Была построена тепловая карта, на которой отображены значения коэффициентов корреляции по всем параметрам. Тепловая карта представлена на рисунке ниже. По ней можно сделать вывод о том, что наибольшая связь у инсульта с возрастом, наличием гипертонии и наличием заболеваний сердца, средний уровень глюкозы.

Рисунок 3. Тепловая карта

 

Из рисунка 2 и рисунка 3 следует, что самым значимым параметром является возраст (X2). Для исследования влияния увеличения возраста на риск инсульта был выбран пациент с характеристиками, представленными в таблице 2. Для проведения данного исследования был выбран метод «Замораживания» [1]. Данный метод подразумевает выбор одного пациента с последующим изменением одного отдельного показателя и фиксированием других показателей [2].

Таблица 2.

Параметры пациента для прогнозирования риска инсульта от возраста

Спрогнозировав в нейросимуляторе 5 на нейтральном пациенте без предрасположенности к инсульту его риск с увеличением возраста, была построена диаграмма. Таким образом, на рисунке 3 показана зависимость для пациента без заболеваний сердечно-сосудистой системы, ведущего городской образ жизни с адекватными показателями индекса массы тела и уровня глюкозы в крови.

Рисунок 4. Зависимость риска инсульта от возраста

 

Вторым по значимости параметром, основываясь на рисунке 2 и рисунке 3, можно выделить средний уровень глюкозы. Для прогнозирования было выбрано два пациента: молодого (Таблица 2) и пожилого возрастов (Таблица 3).

Таблица 3.

Параметры пациента для прогнозирования риска инсульта от уровня глюкозы

На Рисунок 1 представлен график зависимости риска инсульта у молодого и пожилого пациентов от уровня глюкозы. Предрасположенность молодого пациента с увеличением уровня глюкозы не превышает 1%. При этом с увеличением возраста до 58 лет график имеет другой вид. По диаграмме на Рисунок 1 можно сделать вывод: чтобы снизить вероятность инсульта в пожилом возрасте, следует снижать уровень глюкозы в крови.

Рисунок 1. Зависимость риска инсульта от уровня глюкозы для обоих пациентов

 

Третий значимый параметр, выделенный в нейростимуляторе, это пол. В таблице 4 указаны пациенты, по которым был составлен прогноз. Пациенты выбраны разного возраста, чтобы провести сравнение учитывая и возраст.

Таблица 4.

Параметры для прогнозирования риска инсульта от пола

Нейросимулятор предсказал, что риск инсульта у мужчин выше, чем у женщин. Однако с увеличением возраста вероятности практически равны 1 у обоих полов (Рисунок 6).

Рисунок 6. Зависимость риска инсульта от пола с учетом возраста

 

Проектирование, обучение и тестирование нейросети в Google Colab.

Другая версия нейросети выполнялась с использованием среды Google Colab на языке Python. Для эффективного обучения сети и повышения обобщающей способности сети, было принято решение об удалении незначимых параметров.

После вычислений коэффициентов корреляции и построения тепловой карты были удалены следующие параметры: тип работы (work_type), статус курения (smoking_status), семейное положение (ever_married), тип жизни (residence_type).

Нейросеть представляет собой двухслойный персептрон с 6 нейронами на входе, 1 нейроном на скрытом слое и одним нейроном на выходном слое. В качестве активационной функции так же выбран гиперболический тангенс, в качестве метрики accuracy, функция потерь — бинарная кросс-энтропия (Binary Cross-Entropy), используемая в машинном обучении для задач бинарной классификации. В качестве алгоритма оптимизации был выбран Adam, созданный специально для глубокого обучения нейронных сетей.

Обучение проводилось в течение 150 эпох. После обучения был построен график потерь (Рисунок 7).

Рисунок 7. График функции потерь на тренировочном и тестовом множествах

 

С задачей классификации нейросеть справилась неплохо. На графике (Рисунок 8) изображены accuracy тренировочного и тестирующего множеств.

Рисунок 8. Accuracy тренировочного и тестирующего множеств

Была построена матрица ошибок (Рисунок 9) и подсчитаны доля правильных ответов, полнота и точность. В результате получились следующие показатели:

Accuracy:  0.76

Recall:  0.77

Precision:  0.9.

Рисунок 9. Матрица ошибок

 

При решении задачи регрессии в качестве функции потерь была выбрана MSE, в качестве метрики — MAE. Для регрессии так же использовался алгоритм оптимизации Adam. Значение ошибки равна 17%, что соответствует значению, полученному в нейросимуляторе. Однако коэффициент детерминации ниже. Сравнение прогнозного и фактического значений вероятности инсульта представлено на рисунке ниже.

Рисунок 10. Сравнение прогнозного и фактического значений вероятности инсульта

 

Рассмотрим вероятность инсульта в зависимости от возраста. Вероятность так же, как и в нейросимуляторе с увеличением возраста растет (Рисунок 11).

Рисунок 11. Вероятность инсульта в зависимости от возраста

Рассмотрим зависимость от индекса массы тела пациента (Рисунок 12). С увеличением индекса массы тела растет вероятность инсульта. К 46 годам риск возрастает от 0,48 до 0,58.

Рисунок 12. Зависимость риска инсульта от индекса массы тела

 

Заключение. В результате исследования была построена нейросетевая система для определения риска инсульта, которая учитывает 10 входных параметров.

Продемонстрированы графики зависимостей риска инсульта от возраста, пола, уровня глюкозы в крови и индекса массы тела. Остальные параметры имеют минимальное в сравнении с вышеуказанными параметрами и почти одинаковое влияние на стоимость квартиры. Были также продемонстрированы графики значимости для каждого параметра.

Результаты получились лучше при работе с нейросимулятором, однако классификация с использованием библиотеки sklearn показала весьма неплохие результаты. Исходя из исследования итоговых результатов система работает приемлемо и может использоваться гражданами в целях прогнозирования предрасположенности к инсульту.

Список литературы

  1. Yasnitsky L. N. Artificial Intelligence and Medicine: History, Current State, and Forecasts [Статья] // Current Hypertension Reviews. 2016. С. 210-215
  2. Андреев И. В. Искусственный интеллект в решении актуальных социальных и экономических проблем XXI века [Конференция] // Нейросетевая система прогнозирования инсульта. Пермь: Perm University Press, 2024
  3. Литвнова М. А. Инсульт: совеременные тенденции развития и профилактическая работа врача [Журнал]. - 2017 г. - 5: Т. 19
  4. Помников В. Г. и Сорокоумов В. А. Актуальные вопросы лечения и профилактики инсульта [Журнал]. 2010. С. 34
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 6 дней до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее