ПРОГНОЗУВАННЯ РИЗИКУ НАСТАННЯ ІНСУЛЬТУ ЗА ДОПОМОГОЮ ОБРОБКИ НЕЗБАЛАНСОВАНИХ ДАНИХ

Автор(и)

  • Максим Жиляк Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна https://orcid.org/0009-0006-3730-2442
  • Олена Городецька Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна https://orcid.org/0000-0002-8433-3878

DOI:

https://doi.org/10.20535/2617-8974.2023.12.292870

Анотація

У контексті медичної науки, інсульт залишається однією з провідних причин смертності та інвалідності, що ставить високі вимоги до ефективності його діагностики та прогнозування. У цьому дослідженні розглядалась проблематика використання незбалансованих даних для прогнозування ризику інсульту, яка є особливо актуальною в умовах гетерогенності симптомів та відсутності універсальних діагностичних методів. Метою даної роботи є вивчення та розробка ефективних прогностичних моделей ризику інсульту, використовуючи сучасні методи машинного навчання, та зосередження на проблемі класового дисбалансу у даних. Основний акцент ставиться на вирішенні викликів, пов'язаних з недостатньою представленістю деяких класів в даних, що є критичним для забезпечення точності прогнозування. Методологія дослідження охоплює декілька етапів: підготовку та обробку даних, використання методів для боротьби з дисбалансом класів (ADAYSN та GAN), а також застосування різних алгоритмів бінарної класифікації. Важливим аспектом є також аналіз впливу різних параметрів на результати прогнозування. Результати дослідження показали, що логістична регресія, навчена на даних, згенерованих за допомогою генеративної нейронної мережі (GAN), продемонструвала найвищу ефективність. Ця модель показала високі показники точності, чутливості, специфічності та зваженої F1-оцінки. Серед аналізованих параметрів особливо значущими виявилися ‘is_private_job’ (анотація, що пацієнт працює на приватній фірмі), ‘is_never_smoked’ (анотація, що пацієнт ніколи не курив), та ‘is_male’ (анотація, що пацієнт чоловічої статі). Загальні висновки дослідження підкреслюють важливість використання методів машинного навчання для прогнозування ризику інсульту, особливо в умовах незбалансованих даних. Вони також вказують на необхідність розробки цілеспрямованих стратегій профілактики, зосереджуючись на ідентифікованих групах ризику, для зниження загальної захворюваності та підвищення ефективності медичних втручань.

Ключові слова: інсульт, незбалансовані дані, машинне навчання, ADAYSN, GAN

##submission.downloads##

Опубліковано

2023-12-26

Номер

Розділ

Статті