Статья опубликована в рамках: LXXXIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 мая 2020 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ РАСЧЕТА ВЕРОЯТНОСТИ РЕЦИДИВА ТУБЕРКУЛЕЗА НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ
DEVELOPMENT OF THE SYSTEM DESIGNED FOR CALCULATING A TUBERCULOSIS RECURRENCE PROBABILITY BASED ON MACHINE LEARNING
Olessya Khussainova
master student, School of Computer Science & Robotics, National Research Tomsk Polytechnic University,
Russia, Tomsk
Sergey Axyonov
candidate of Engineering Sciences, Associate Professor of Division for Information Technology, National Research Tomsk Polytechnic University,
Russia, Tomsk
АННОТАЦИЯ
Целью настоящего исследования являлось изучение и категоризация признаков вероятности возникновения рецидива туберкулеза. С помощью машинного обучения были проанализированы 346 случаев заболевания туберкулезом, включая 25 случаев рецидива, а также выделены наиболее важные туберкулезные признаки. В результате была создана информационная система, позволяющая рассчитать вероятность рецидива туберкулеза на основе рассмотренных признаков. Наибольший вес в возникновении рецидива имеют наличие ВИЧ, количество предыдущих курсов лечения, продолжительность и давность заболевания туберкулезом.
ABSTRACT
In the current research, we studied and categorized the symptoms of a tuberculosis recurrence probability. We used machine learning to analyze 346 cases of tuberculosis, including 25 cases of recurrence, thus identified the most important tuberculosis symptoms. As a result, we created an information system for calculating a probability of the tuberculosis recurrence based on the considered symptoms. The greatest impact of tuberculosis recurrence is the presence of HIV, the number of previous courses of treatment, the duration of TB tuberculosis
Ключевые слова: вероятность рецидива туберкулеза; признаки рецидива туберкулеза; машинное обучение; градиентный бустинг; XGBoost; Shap.
Keywords: tuberculosis recurrence probability; tuberculosis recurrence symptoms; machine learning; gradient boosting; XGBoost; Shap.
Введение
Туберкулез сопровождает человечество в течение нескольких тысяч лет, становясь причиной значительного числа смертей от поколения к поколению. Однако данные о результатах динамического наблюдения за отдаленными последствиями рецидивов туберкулеза органов дыхания в современных публикациях единичны, что приводит к сложностям в выделении характерных признаков, по которым возможно рассчитать вероятность возникновения рецидива туберкулеза. Таким образом, целью настоящего исследования является разработка приложения, позволяющего рассчитать вероятность рецидива туберкулеза согласно исследуемым признакам.
Обзор литературы
Для эффективного лечения туберкулеза необходимо учитывать как социальные, так и медицинские сопутствующие факторы [1, с. 144]. Наиболее значимыми факторами для развития рецидива заболевания в мире считаются: неполноценная противотуберкулезная терапия, лекарственная устойчивость и длительно сохраняющаяся кавитация легочной паренхимы. Роль других факторов – социальные условия, сопутствующие заболевания и комбинация противотуберкулезных средств, используемых для лечения больных, – остается спорной [3, с. 30].
Группа исследователей под руководством Холявкина А.А. выделила следующие наиболее частые причины возникновения рецидива туберкулеза: сопутствующие заболевания – 54,4%, плохие материально-бытовые условия жизни – 41,8%, злоупотребление алкоголем и хронический алкоголизм – 32,1%, недостатки в проведении основного курса химиотерапии и курсов противорецидивного лечения – 20,5%, пребывание в исправительно-трудовых учреждениях – 18,1%, большие остаточные изменения после перенесенного туберкулеза легких – 16,5%, наличие контакта с туберкулезными больными людьми или животными – 15,3% [2, с. 68].
Материалы и методы исследования
Для исследования вероятности возникновения туберкулеза ОГАУЗ «Томский Фтизиопульмонологический Медицинский Центр» предоставил набор данных, включающий в себя 346 случаев заболевания туберкулезом (включая 25 случаев рецидива) по 154 параметрам.
Классификация вероятности рецидива туберкулеза, а также ранжирование признаков туберкулеза осуществлялись с помощью машинного обучения, а именно с использованием градиентного бустинга.
Результаты
В ходе исследования был реализован ансамбль моделей градиентного бустинга с использованием библиотеки XGBoost. Набор данных был разделен на две выборки – обучаемую и тестовую (30% от данных). В результате обучения и тестирования данная модель показала достаточно высокую точность предсказания вероятности рецидива туберкулеза (Рисунок 1).
Рисунок 1. Матрица ошибок ансамбля XGBoost
Одной из проблем поставленной задачи являлась избыточность признаков рецидива туберкулеза, поэтому также требовалась их правильное категорирование в зависимости от веса в расчете вероятности. Таким образом, разработанная модель выделила 10 самых важных признаков (Рисунок 2).
Рисунок 2. Основные признаки для расчета вероятности рецидива туберкулеза
Функциональность приложения представлена формой для ввода значения признаков (Рисунок 3). Поля данной формы разделены на вкладки согласно категориям признаков. Первая вкладка содержит поля, сформированные посредством машинного обучения, которые необходимы для корректного расчета вероятности рецидива.
Рисунок 3. Интерфейс приложения по расчету вероятности рецидивов туберкулеза
В качестве результата расчета отображается виджет Shap, разработанный для визуализации вывода результатов машинного обучения (Рисунок 4). Данный виджет позволяет не только визуализировать результат вероятности (синяя шкала – низкая вероятность, красная – высокая), но и указать по каким именно параметрам были сделаны такие выводы.
Рисунок 4. Результат расчета вероятности рецидива туберкулеза
Заключение
Причины развития рецидивов туберкулеза, их предупреждение, своевременное выявление и лечение остается весьма актуальной проблемой и требует систематического углубленного изучения. Однако избыточное количество признаков туберкулеза, а также относительно малое количество данных о повторных заболеваниях туберкулезом осложняют изучение и прогнозирование данной проблемы. Все эти факторы подтверждают актуальность настоящего исследования.
В ходе работы были изучены и категорированы признаки туберкулеза. При реализации приложения было использовано машинное обучение, в частности ансамбль моделей градиентный бустинг. Разработанная модель показала высокую точность предсказания вероятности рецидивов.
Список литературы:
- Серегина В.А., Будрицкий А.М., Гапанович С.Е., Кучко И.В., Романовский Р.В., Правада Н.С., Загорец Т.М. Эпидемиологическая и клиническая характеристика рецидивов туберкулеза органов дыхания в Витебской области // Вестник ВГМУ. — 2010. — №4. [электронный ресурс] — Режим доступа. — URL: https://cyberleninka.ru/article/n/epidemiologicheskaya-i-klinicheskaya-harakteristika-retsidivov-tuberkuleza-organov-dyhaniya-v-vitebskoy-oblasti (дата обращения 24.04.2020).
- Холявкин А.А. Клиническая характеристика и исходы рецидивов туберкулеза легких // Проблемы здоровья и экологии. — 2006. — №2 (8). [электронный ресурс] — Режим доступа. — URL: https://cyberleninka.ru/article/n/klinicheskaya-harakteristika-i-ishody-retsidivov-tuberkuleza-legkih (дата обращения 24.04.2020).
- Pasipanodya J.G. A meta-analysis of self-administered vs. directly observed therapy effect on microbiologic failure, relapse, and acquired drug resistance in tuberculosis patients // Clinical Infectious Diseases. — 2013. — Vol. 57, №1. — P. 21–31.
дипломов
Оставить комментарий