Поздравляем с Днем студента!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXLV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 13 января 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Рысин Р.А., Макотра А.В., Непомнящий В.Д. АНАЛИЗ КОРРЕЛЯЦИИ ДАННЫХ И ОТБОР ПРИЗНАКОВ В ЕСТЕСТВЕННЫХ И МАШИННЫХ ЗАДАЧАХ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXLV междунар. студ. науч.-практ. конф. № 1(143). URL: https://sibac.info/archive/technic/1(143).pdf (дата обращения: 25.01.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

АНАЛИЗ КОРРЕЛЯЦИИ ДАННЫХ И ОТБОР ПРИЗНАКОВ В ЕСТЕСТВЕННЫХ И МАШИННЫХ ЗАДАЧАХ

Рысин Роман Андреевич

студент, кафедра инноватики и интегрированных систем качества, Санкт-Петербургский государственный университет аэрокосмического приборостроения,

РФ, г. Санкт-Петербург

Макотра Антон Вадимович

студент, кафедра инноватики и интегрированных систем качества, Санкт-Петербургский государственный университет аэрокосмического приборостроения,

РФ, г. Санкт-Петербург

Непомнящий Вадим Дмитриевич

студент, кафедра инноватики и интегрированных систем качества, Санкт-Петербургский государственный университет аэрокосмического приборостроения,

РФ, г. Санкт-Петербург

DATA CORRELATION ANALYSIS AND FEATURE SELECTION IN NATURAL AND MACHINE TASKS

 

Roman Rysin

student, Department of Innovation and Integration Quality Systems, St. Petersburg State University of Aerospace Instrumentation,

Russia, St. Petersburg

Anton Makotra

student, Department of Innovation and Integration Quality Systems, St. Petersburg State University of Aerospace Instrumentation,

Russia, St. Petersburg

Vadim Nepomnyashchy

student, Department of Innovation and Integration Quality Systems, St. Petersburg State University of Aerospace Instrumentation,

Russia, St. Petersburg

 

АННОТАЦИЯ

Данная статья исследует методы анализа корреляции и отбора признаков, подчёркивая их применение в науках о природе и машинном обучении. В работе рассматриваются корреляционные матрицы, значимость признаков и их влияние на эффективность моделей. Представлены графики, диаграммы и расчёты, подтверждающие результаты.

ABSTRACT

This article explores the methods of correlation analysis and feature selection, emphasizing their application in the natural sciences and machine learning. The paper considers correlation matrices, the significance of features and their impact on the effectiveness of models. Graphs, diagrams, and calculations confirming the results are presented.

 

Ключевые слова: корреляция, корреляционная матрица, отбор признаков, машинное обучение, анализ данных, природные системы, линейная регрессия.

Keywords: correlation, correlation matrix, feature selection, machine learning, data analysis, natural systems, linear regression.

 

Анализ корреляции является ключевым этапом понимания взаимосвязей в данных. В природных системах корреляция позволяет раскрыть закономерности между явлениями, такими как изменения температуры и уровня осадков. В машинном обучении отбор признаков по корреляционным матрицам снижает размерность данных и увеличивает модельную эффективность.

Цель этой статьи — предложить аналитическую рамку, сочетающую классические статистические методы и современные приёмы интерпретации данных.

Природные системы: Использованы экологические данные, включая метеорологические записи и измерения состава почв.

Машинное обучение: Анализировались данные из открытых наборов, таких как UCI Machine Learning Repository. Данные нормализованы, а выбросы устранены методом интерквартильного размаха.

Корреляционные матрицы позволяют определить степень связи между признаками. Основным инструментом является коэффициент корреляции Пирсона:

где  — ковариация, а  — стандартные отклонения переменных.

Рисунок 1. Пример корреляционной матрицы

 

Рисунок 2. Тепловая карта корреляционной матрицы

 

Признаки с высокой взаимной корреляцией  удаляются. Выбор ключевых признаков производится на основе их вклада в модель, который рассчитывается по следующей формуле: 

где — уменьшение критерия качества при выборе признака  на шаге t.

 

Рисунок 3. Диаграмма разброса с наложенной линией регрессии

 

Пример 1: Природные данные.

Анализ данных о температуре и уровне осадков показал, что между этими признаками существует высокая положительная корреляция (\( \rho = 0.76 \)). Линейная регрессия описывается уравнением: 

где Y — уровень осадков, X — температура, — коэффициенты, — ошибка. 

Удаление второстепенных признаков (например, влажности) позволило улучшить точность прогнозов на 12%.

 

Рисунок 4. Диаграмма зависимости температуры и уровня осадков

 

Пример 2: Наборы данных для машинного обучения.

На данных о качестве вина проведён отбор признаков. Например, высокая корреляция между алкоголем и плотностью (\( \rho = 0.89 \)) привела к исключению одного из них.

Точность модели увеличилась с 85% до 91%, что подтверждается метриками.

Таблица 1.

Вклад признаков в точность модели

Метрика

До отбора

После отбора

Точность

85%

91%

F1-score

0.83

0.89

 

Применение корреляционных матриц и отсечения признаков доказало свою эффективность в улучшении интерпретации данных и повышении качества моделей. Использование корреляционного анализа уменьшает избыточность данных и снижает вычислительные затраты.  В будущем необходимо исследовать нелинейные связи между признаками и интеграцию методов глубокого обучения для анализа сложных взаимозависимостей.

 

Список литературы:

  1. Лакин, Г. Ф. Биометрия / Г. Ф. Лакин. — М.: Высшая школа, 1990. — 352 с.
  2. Хебер, Дж. Введение в машинное обучение с Python: Руководство для специалистов по данным / Дж. Хебер, С. Расмуссен. — М.: ДМК Пресс, 2017. — 440 с.
  3. Беккер, Р. А. Статистический анализ в науке и технике / Р. А. Беккер. — СПб.: Наука, 2008. — 512 с.
  4. Ли, Дж. А. Основы анализа больших данных: Практическое руководство / Дж. А. Ли, М. В. Вербер. — СПб.: Питер, 2019. — 416 с.
  5. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — New York: Springer, 2009. — 745 p.
  6. Pedregosa, F., Varoquaux, G., Gramfort, A., et al. Scikit-learn: Machine Learning in Python // Journal of Machine Learning Research. — 2011. — Vol. 12, p. 2825–2830.
  7. Rousseeuw, P. J., Leroy, A. M. Robust Regression and Outlier Detection. — New York: Wiley, 1987. — 329 p.
  8. Zhang, Z., Ghodsi, A. Feature selection criteria and applications in machine learning // Annual Review of Statistics and Its Application. — 2016. — Vol. 3, p. 147–164.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий