Статья опубликована в рамках: Научного журнала «Студенческий» № 5(5)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2
ПОДСИСТЕМА АНАЛИЗА ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ECOHEALTH
Аннотация: в данной статье рассмотрены методы анализа данных и машинного обучения, реализованные в информационно-аналитической системе для корреляционного анализа данных с целью применения в сфере экологии и здравоохранения. Был проведен анализ существующих исследований в данной области, и сделаны необходимые расчёты коэффициента корреляции. Данные, использованные в исследовании, получены при помощи сервиса AirPaca и госпиталя Pasteur в период с января 2014 года по декабрь 2016 года.
Ключевые слова и фразы: язык R, Большие данные, корреляция, линейный коэффициент корреляции Пирсона, регрессионная модель, диспноэ, загрязнение воздуха.
1. Введение
Проведение исследований по оценке влияния окружающей среды на здоровье людей является важным инструментом для демонстрации необходимости принятия мер по улучшению качества воздуха и снижения негативного воздействия экологических факторов.
Существует большое количество работ, посвященных воздействию загрязнения воздуха на здоровье человека. Исследования в различных географических районах показали зависимость респираторных симптомов от состояний с долгосрочным воздействием общих взвешенных частиц (TSP) и SO2 [11, 13, 10, 6, 16, 23, 9], твердых частиц [14, 7, 1], черного дыма [8] и NO2 [18]. Кроме того, некоторые исследования госпитализаций и смертности указывают на связь краткосрочного и долгосрочного воздействия загрязнения воздуха с симптомами, присущими как легочным, так и сердечным заболеваниям [21, 3, 4, 24, 20, 15, 22, 5].
Таким образом, было принято решение провести подобное исследование в городе Ницце (Франция). В его основу легли данные о загрязнении воздуха в данном регионе, полученные при помощи сервиса AirPaca [2], предоставляющего показания датчиков в открытом доступе. Замеры атмосферного воздуха проводились в 6 районах: Contes 2, Aéroport de Nice, Nice Promenade des Anglais, Nice Arson, Peillon, Nice Ouest Botanique. Для получения сведений о пациентах, страдающих диспноэ, был использован архив госпиталя Pasteur (Ницца). Диспноэ (одышка) — нарушение частоты и глубины дыхания, сопровождающееся чувством нехватки воздуха.
Для обработки и хранения данных, использовавшихся при проведении этого исследования, была разработана информационно-аналитическая система с использованием подхода Большие данные (Big Data), что позволило повысить эффективность анализа данных.
Большие данные (Big Data) — это информационные технологии обработки различных структурированных и неструктурированных данных очень больших объёмов в условиях непрерывного роста объемов данных и распределения их по многочисленным узлам вычислительной сети [18].
Архитектура информационно-аналитической системы EcoHealth представлена на Рисунке 1.
Рисунок 1. Архитектура информационно-аналитической системы EcoHealth.
Статистический анализ данных был проведен с использованием языка R. R — это язык программирования с открытым исходным кодом, а также программная среда для статистических вычислений и графиков, поддерживаемая R Foundation [12]. Он позволяет группировать и фильтровать данные, автоматически вычислять коэффициенты корреляции, а также создавать необходимые графики для визуализации.
Для отображения результатов исследования было использовано реализованное при помощи языка Java веб-приложение, получающее данные анализа из базы и визуализирующее их в виде таблиц и графиков.
1. Методы корреляционного анализа данных системы
Описание данных, использованных для проведения статистического анализа, сведено в Таблицу 1 и Таблицу 2.
Таблица 1
Описание структуры данных о заболеваемости в городе Ницце за период с 2014 по 2016 гг.
Поле |
Описание |
Gender |
Пол |
Age |
Возраст |
Address |
Адрес проживания |
Postal code |
Почтовый индекс |
Ville |
Город проживания |
Admission |
Дата обращения в лечебное учреждение |
Sortie |
Дата выписки |
Examen |
Дата проведения диагностических мероприятий |
Categorie de Recours |
Группа препаратов, которые были выписаны пациенту |
Libelle de Recours |
Код выписки |
Code de Recours |
Предварительный диагноз; код заболевания согласно МКБ-10 (Международной классификации болезней) |
Libelle gravite |
Код степени отягощенности пациента |
Libelle CCMU |
Код медицинского страхования |
Destination Confirmee |
Принимающее лечебное учреждение |
Type de sortie |
Код выписки из лечебного учреждения |
Diag1 – diag10 |
Окончательный диагноз; код заболевания согласно МКБ-10 |
Таблица 2.
Описание структуры данных о загрязнении воздуха г. Ниццы за период с 2014 по 2016 гг.
Поле |
Описание |
Station |
Название станции, где расположен сенсор измерения уровня загрязнения воздуха |
Polluant |
Химическая формула вещества |
Mesure |
Полное название химического вещества |
Unité |
Единицы измерения (µg/m3) |
Date |
Дата |
Value |
Объем содержания вещества в воздухе |
Для расчетной меры зависимости между величинами использовался коэффициент линейной корреляции Пирсона. Он получается путем деления ковариации двух переменных на произведение их стандартных отклонений и рассчитывается по следующей формуле [19]:
где — среднее значение выборок.
В языке R для вычисления данного коэффициента используется функция cor (пример ее применения представлен на Рис. 2). Для построения линейной регрессионной модели был реализован метод lm для соответствующих наборов данных.
Рисунок 2. Пример использования функции поиска коэффициента линейной корреляции на языке R.
Поиск корреляции проводился для следующих наборов данных:
· набор данных о пациентах и состоянии воздуха без применения фильтрации;
· набор данных о пациентах и состоянии воздуха с применением фильтрации по диагнозу (пациенты с заболеваниями легких);
· набор данных о пациентах и состоянии воздуха с применением фильтрации по диагнозу (пациенты с заболеваниями сердца);
· сгруппированные по 5 дней наборы данных о пациентах и состоянии воздуха (в этом случае учитывается наличие инкубационного периода у заболеваний, а также время воздействия вредных составляющих атмосферного воздуха).
1. Результаты анализа
В ходе вычислений были получены результаты, представленные в Таблицах 3-5.
Таблица 3.
Результаты для нефильтрованных данных
Набор данных 1 |
Набор данных 2 |
Коэффициент корреляции |
Оксид азота (II) |
Пациенты |
0.1804087 |
Оксид азота (IV) |
Пациенты |
0.1012164 |
Оксид азота |
Пациенты |
0.1616413 |
Озон |
Пациенты |
-0.2199504 |
Частицы PM10 |
Пациенты |
0.05497636 |
Частицы PM2,5 |
Пациенты |
0.0786113 |
Таблица 4.
Результаты для данных, фильтрованных по диагнозу
Набор данных 1 |
Набор данных 2 |
Коэффициент корреляции |
Оксид азота (II) |
Пациенты (заболевания легких) |
0.1719213 |
Оксид азота (IV) |
Пациенты (заболевания легких) |
0.08888615 |
Оксид азота |
Пациенты (заболевания легких) |
0.1535681 |
Озон |
Пациенты (заболевания легких) |
-0.2045952 |
Частицы PM10 |
Пациенты (заболевания легких) |
0.06846391 |
Частицы PM2,5 |
Пациенты (заболевания легких) |
0.0973422 |
Оксид азота (II) |
Пациенты (заболевания сердца) |
0.1060834 |
Оксид азота (IV) |
Пациенты (заболевания сердца) |
0.03138159 |
Оксид азота |
Пациенты (заболевания сердца) |
0.08371402 |
Озон |
Пациенты (заболевания сердца) |
-0.1386231 |
Частицы PM10 |
Пациенты (заболевания сердца) |
-0.005957092 |
Частицы PM2,5 |
Пациенты (заболевания сердца) |
0.002553244 |
Таблица 5.
Результаты для нефильтрованных данных
Набор данных 1 |
Набор данных 2 |
Коэффициент корреляции |
Оксид азота (II) |
Пациенты |
0.36395 |
Оксид азота (IV) |
Пациенты |
0.2697953 |
Оксид азота |
Пациенты |
0.3613143 |
Озон |
Пациенты |
-0.371573 |
Частицы PM10 |
Пациенты |
0.1243245 |
Частицы PM2,5 |
∆Пациенты |
0.1249298 |
Таким образом, наибольшее значение коэффициента корреляции с набором данных о пациентах имеет оксид азота, но оно недостаточно для утверждения существования корреляции данного вещества с ростом количества пациентов. Связь соответствующих наборов данных представлена на Рисунке 3.
Рисунок 3. Зависимость роста количества пациентов от количества оксида азота в воздухе.
Для визуализации связи количества оксида азота в воздухе и количества пациентов с нарушениями дыхания была построена линейная регрессионная модель. Диаграмма разброса данных представлена на Рисунке 4.
Рисунок 4. Диаграмма разброса данных о количестве оксида азота в воздухе и данных о количестве пациентов с нарушениями дыхания, сгруппированных по 5 дней.
Результаты анализа были сохранены в базу данных OracleSQL при помощи пакета RJDBC для дальнейшего отображения в веб-приложении. Построение графиков в приложении реализовано с использованием библиотеки Primefaces 5.0 [17]. Примеры пользовательского интерфейса представлены на Рисунках 5 и 6.
Рисунок 5. Пример интерфейса для отображения графиков в веб-приложении.
Рисунок 6. Пример интерфейса для отображения результатов вычисления корреляционного коэффициента в веб-приложении.
1. Выводы
Анализ представленных данных не доказал существование линейной корреляции между загрязнением воздуха в Ницце и количеством пациентов с нарушениями дыхания.
Однако, так как наибольший коэффициент наблюдается для оксида азота, необходимо продолжить исследование по поиску взаимосвязи количества пациентов с количеством данного вещества в воздухе, используя другие методы и средства машинного обучения.
Предложено разработать алгоритмы на языке R, позволяющие определять факторы риска для людей с нарушениями дыхания для будущей классификации пациента и составления индивидуальных рекомендаций.
Список литературы:
- Abbey D., Hwang B., Burchette R. Estimated long term ambient concentrations of PM10 and development of respiratory symptoms in a nonsmoking population / D. Abbey, B. Hwang, R. Burchette // Arch. Environ. Health. — 1995. — P. 139-150.
- AirPaca. Association de surveillance de la qualité de l'air agréée par le ministère de l'environnement. Available at: http: http://www.airpaca.org/ (accessed 29, 04, 2017).
- Air pollution and daily mortality in Erfurt, East Germany, 1980-1989 / C. Spix, J. Heinrich, D. Dockery et al. // Environ. Health Perspect. — 1993. — P. 518-526.
- An association between air pollution and mortality in six U.S. cities / D. Dockery, A. Pope, X. Xu et al. // Engl. J. Med. — 1993. — P. 1753-1759.
- Burnett R., Dales R., Krewski D. Associations between ambient particulate sulfate and admissions to Ontario Hospitals for cardiac and respiratory diseases / R. Burnett, R. Dales, D. Krewski // Am. J. Epidemiol. — 1995. — P. 15-22.
- Chronic obstructive pulmonary disease symptom effects of long term cumulative exposure to ambient levels of total suspended particulates and sulfur dioxide in California Seventh-Day Adventist residents / G. Euler, D. Abbey, A. Magie, J. Hodlkin // Arch. Environ. Health. — 1983. — P. 213-222.
- Chronic respiratory symptoms associated with estimated long-term ambient concentrations of fine particulates less than 2.5 microns in aerodynamic diameter (PM2.5) and other air pollutants / D. Abbey, B. Ostro, F. Petersen, R. Burchette // Exp. Anal. Environ. Epidemiol. — 1995. — P. 137-159.
- Effect of ambient levels of smoke and sulphur dioxide on the health of a national sample of 23-year-old subjects in 1981 / J. Scarlett, J. Griffiths, D. Strachan, H. Anderson // Thorax. — 1995. — P. 764-768.
- Forsberg В., Stjernberg N., Wall S. Prevalence of respiratory and hyperreactivity symptoms in relation to levels of criteria air pollutants in Sweden / B. Forsberg, N. Stjernberg, S. Wall // Eur. J. Public Health. — 1997. — P. 291-296.
- Health effects of air pollution due to coal combustion in the Chestnut Ridge region of Pennsylvania: results of cross-sectional analysis in adults / M. Schenker, J. Samet, F. Speizer et al. // Arch. Environ. Health. — 1983. — P. 325-330.
- Holland W., Reid D. The urban factor in chronic bronchitis / W. Holland, D. Reid // Lancet. — 1965. — P. 445-448.
- Hornik К. R FAQ / K. Hornik // The Comprehensive R Archive Network. — 2015.
- Lelouche J. Pollution atmosphérique et affections respiratoires chroniques ou à répétition/ J. Lelouche // PAARC: Groupe Cooperative. — 1982. —P. 87-116.
- Long-term ambient concentrations of particulates and oxidants and development of chronic disease in a cohort of nonsmoking California residents / D. Abbey, M. Lebowitz, P. Mills et al. // Inhal. Toxicol. — 1995. — P. 21-34.
- Pope А., Thun M. Particulate air pollution as a predictor of mortality in a prospective study of U. S. adults / A. Pope, M. Thun// Respir. Crit. Care Med. — 1995. — P. 669-674.
- Portney Р., Mullahy J. Urban air quality and respiratory disease / P. Portney, J. Mullahy // Reg. Sci. Urban Econ. — 1990. — P. 407-418.
- Primefaces Available at: https://www.primefaces.org/(accessed 29, 04, 2017).
- Preimesberger С. Hadoop, Yahoo, 'Big Data' Brighten BI Future / C. Preimesberger // EWeek. — 2011. — P. 11-17.
- Rodgers J. Thirteen ways to look at the correlation coefficient / J. Rodgers // The American Statistician. — 1988. — P. 59-66.
- Schwartz J. Air pollution and daily mortality: a review and meta-analysis / J. Schwartz // Environ. Res. — 1994. — P. 36-52.
- Schwartz J., Dockery D. Increased mortality in Philadelphia associated with daily air pollution concentrations / J. Schwartz, D. Dockery // Eur. Respir. — 1994. — P. 954-960.
- Schwartz J., Morris R. Air pollution and hospital admissions for cardiovascular disease in Detroit, Michigan / J. Schwartz, R. Morris // Am. J. Epidemiol. — 1995. — P. 23-25.
- Schwartz J. Particulate air pollution and chronic respiratory disease / J. Schwartz // Environ. Res. — 1993. — P. 7-13.
- Short-term effects of air pollution on daily mortality in Athens — a time-series analysis / G. Touloumi, S. Pocock, K. Katsouyanni, D. Trichopoulos // Int. J. Epidemiol. — 1994. — P. 957-967.
Оставить комментарий