Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 32(76)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2

Библиографическое описание:
Маланьин Д.Д. МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ // Студенческий: электрон. научн. журн. 2019. № 32(76). URL: https://sibac.info/journal/student/76/154123 (дата обращения: 29.11.2024).

МАШИННОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ

Маланьин Данила Дмитриевич

студент, кафедра «Защита информации», Институт комплексной безопасности и специального приборостроения, МИРЭА Российский технологический университет,

РФ, г. Москва

Спустя некоторое время после появления обучения с учителем, появилось обучение без учителя. Отличительная особенность в том, что данные не размечены. Наиболее часто такое обучение применяется для анализа данных, но не в качестве основного алгоритма, так как в последнем случае алгоритм оказывается крайне неэффективным. В настоящее время обучение без учителя на практике используется реже, чем обучение с учителем [1].

Задачи, для которых применяется классическое машинное обучение без учителя делятся на три типа:

  1. Задачи на кластеризацию;
  2. Задачи на обобщение;
  3. Задачи на ассоциации.

Кластеризация – разделяет объекты по признаку, выделяемому машиной. По сути, это классификация, но без заранее известных классов.

Объекты разбиваются на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний [3]. Количество кластеров ограничивается вручную или определяется машиной.

Одним из простейших и популярных методов кластеризации является метод K-средних, который заключается в том, что сначала выбирается k - необходимое количество классов, затем случайным образом высыпаются на пространство имеющихся данных k точек (центроиды). Для каждой точки считается к какому центроиду она ближе, а затем каждый центроид перемещается в центр отнесенной к нему выборки, повторяется эта операция, пока центроиды не перестанут двигаться. Обнаруженные k кластеров стабильны. Этот алгоритм часто используется при сжатии фотографий.

Однако на практике, не всегда можно изначально знать число кластеров, а также факт их вложенности друг в друга. Для подобных задач используются более сложные алгоритмы, такие как DBSCAN – он сам находит скопления точек и строит вокруг кластеры.

Как и классификация, кластеризация тоже может использоваться как детектор аномалий, однако работает такой подход в разы хуже.

Обобщение или уменьшение размерности основано на сборе конкретных признаков в абстракции более высокого уровня. Полезным является свойство перехода на более высокий уровень абстракции, жертвуя ненужными для машины подробностями.

Основными для решения задач обобщения являются следующие методы:

  1. Метод главных компонент (PCA) – один из самых простых и часто используемых методов для снижения размерности данных и проекции их на ортогональное подпространство признаков [4];
  2. Сингулярное разложение (SVD) – метод, часто используемый для объединения слов и документов в один признак без потери скрытых (латентных) связей;
  3. Латентно-семантический анализ (LSA) – метод, часто используемый для определения тематик текстов, основная идея которого была в том, что частота появления слова в тексте зависит от его тематики;

Уменьшение размерности часто применяется для построения рекомендательных систем, определение тематики документов, анализа фейковых изображений и видео и риск-менеджмента. Стоит отметить, что часто складывается ситуация, когда абстракции, полученные машиной, трудно понимаемы для человека.

Ассоциация или поиск правил основывается на поиске закономерностей в потоке заказов. Методы анализа покупательских корзин, прогноза распродаж и акций, шаблонов поведения пользователя на веб-ресурсах, стратегий маркетинга и других закономерностей.

К сожалению, на данный момент является одной из самых бедных категорий в плане методов обучения. Классическими методами является перебор пар с помощью деревьев или множеств. Недостатком алгоритмов поиска правил является то, что они могут найти закономерности, но не могут их репродуцировать и обобщать.

В качестве вывода можно отметить, что несмотря на меньшую точность классического машинного обучения без учителя, есть классы задач, которые не могут быть решены без его использования.

 

Список литературы:

  1. Маланьин Д.Д. МАШИННОЕ ОБУЧЕНИЕ С УЧИТЕЛЕМ // Студенческий: электрон. научн. журн. 2019. № 31(75) [Электронный ресурс]. – Режим доступа: https://sibac.info/journal/student/75/153985
  2. Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация [Электронный ресурс]. – Режим доступа: https://habr.com/ru/company/ods/blog/325654/ (дата обращения: 05.10.2019)
  3. Wikipedia: Обучение без учителя [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Обучение_без_учителя (дата обращения: 05.10.2019)
  4. Wikipedia: Метод главных компонент [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Метод_главных_компонент (дата обращения: 05.10.2019)

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.