ДІАГНОСТИЧНІ АЛГОРИТМИ ВИЗНАЧЕННЯ ГЕНЕТИЧНИХ МУТАЦІЙ РАКУ ЗА ДОПОМОГОЮ АНАЛІЗУ МЕДИЧНИХ ТЕКСТІВ

Л.О. Левчик; В.О. Бабенко; К.С. Бовсуновська; В.А. Павлов; Є.А. Настенко

doi:10.20535/2617-8974.2022.8.271038

Автор(и)

Л.О. Левчик Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
В.О. Бабенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
К.С. Бовсуновська Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
В.А. Павлов Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна
Є.А. Настенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.20535/2617-8974.2022.8.271038

Анотація

Сучасний стан аналітичних інструментів діагностики, до яких відноситься і генетичне тестування, дозволяють розраховувати, що процес діагностування онкологічних захворювань може бути автоматизованим. Однак, об’єм ручної роботи, необхідної для діагностики ракових пухлин, залишається значною перешкодою для прогресу в даній області. Процес секвенування пухлини здатний виявити тисячі генетичних мутацій, але задача полягає в тому, щоб відрізнити ті мутації, які сприяють зростанню рака (драйвери), від нейтральних мутацій (пасажирів). Ця задача потребує від клінічного патолога ручного аналізу та класифікації кожної мутації на основі інформації, отриманої з клінічної літератури. Використання комп’ютеризованих методів аналізу медичних текстів здатне автоматизувати даний етап діагностики ракових пухлин. Мета даної роботи полягала в оцінці ефективності використання методів обробки природної мови у поєднанні з машинним навчанням для автоматизованого визначення типів генетичних мутацій раку з медичних текстових даних. Наявна для використання база медичних текстових даних, що містить 3321 спостереження, і анотована по 9 типам генетичних мутацій раку провідними дослідниками та онкологами центру Меморіалу Слоуна Кеттерінга (Нью-Йорк, США). Дані були надані в рамках конкурсу по машинному навчанню спільнотою фахівців з Data Science - Kaggle. Для розв’язання багатокласової задачі класифікації використані моделі машинного навчання: мультиноміальний наївний Байєс, мультиноміальна логістична регресія, випадковий ліс, метод групового урахування аргументів, багатошаровий перцептрон, та рекурентна нейронна мережа з довгою короткостроковою пам’яттю. Модель багатошарового перцептрона виявилась найбільш ефективною для визначення типу генетичної мутації, продемонстрував точність передбачення 65.1% на тестовій вибірці, що склала 25% від загального набору даних. Друга по точності модель (випадковий ліс) досягла точність у 64.9%. Одержані результати перевершили результати учасників конкурсу Kaggle, де найвища точність класифікації (64.7%) була досягнута за допомогою лінійної моделі, заснованій на методі опорних векторів.Поєднання методів обробки природної мови та машинного навчання показує великий потенціал для застосування в медичній галузі, зокрема, у визначенні типів генетичних мутацій раку на основі текстових даних. Це надає можливість для автоматизації дій медичного персоналу в процесі діагностики. Для досягнення більш ефективних результатів планується проведення подальших досліджень.

ДІАГНОСТИЧНІ АЛГОРИТМИ ВИЗНАЧЕННЯ ГЕНЕТИЧНИХ МУТАЦІЙ РАКУ ЗА ДОПОМОГОЮ АНАЛІЗУ МЕДИЧНИХ ТЕКСТІВ

Автор(и)

DOI:

Анотація

##submission.downloads##

Опубліковано

Номер

Розділ