Статья опубликована в рамках: LXIX Международной научно-практической конференции «Технические науки - от теории к практике» (Россия, г. Новосибирск, 24 апреля 2017 г.)
Наука: Технические науки
Секция: Информатика, вычислительная техника и управление
Скачать книгу(-и): Сборник статей конференции
дипломов
МАШИННОЕ ОБУЧЕНИЕ: ШАГ НАВСТРЕЧУ БУДУЩЕМУ И СДЕРЖИВАЮЩИЕ ФАКТОРЫ
MACHINE LEARNING: A STEP TOWARDS THE FUTURE AND CONSTRAINTS
Stanislav Markin
student of department of IT-systems and technologies, Don State Technical University,
Russia, Rostov-on-Don
Maria Stupina
senior teacher of Don State Technical University,
Russia, Rostov-on-Don
АННОТАЦИЯ
Машинное обучение способно коренным образом изменить подход к организации многих сфер деятельности современного человека. В данной статье производится обзор этих изменений, а так же факторов, стоящих на пути внедрения систем машинного обучения в бытовую и профессиональную деятельность людей.
ABSTRACT
Machine learning can radically change the approach to the organization of many spheres of activity of modern man. This article reviews these changes, as well as the factors that stand in the way of implementing machine learning systems in the everyday and professional activities of people.
Ключевые слова: машинное обучение; обучающая выборка; классификация систем машинного обучения; поисковый запрос; распознавание; нехватка данных; переобучение.
Keywords: machine learning; training sample; classification of machine learning systems; search query; recognition; lack of data; retraining.
Ещё буквально несколько лет назад никто бы и не подумал, что машинное обучение станет настолько неотъемлемой частью нашей жизни, что мы даже перестанем осознавать факты его использования. Ни для кого не секрет, что этот продукт прогресса способен заменить (не помочь в работе, а именно заменить) сотни тысяч и даже миллионы работников самых разнообразных отраслей по всему миру.
Можно выделить несколько отраслей, в которые данная технология в ближайшем будущем привнесёт наибольшие изменения:
- Здравоохранение. Значительная часть врачебной деятельности заключается в распознавании образов, например: распознавание структуры мазков крови (кровь имеет определённый состав и задача состоит в выявлении отклонений от нормы), рентгенов (обнаружение переломов, трещин, смещений, опухолей и пр.), анализ ультразвуковых исследований, фрагментирование МРТ и т. д. Кроме того, в недалёком будущем при сборе определённого рода информации о пациентах, станет доступно некоторое прогнозирование. [2]
- Транспорт. Сфера логистики так же стремительно развивается и готова к инновациям, а именно к беспилотным транспортным средствам (в Японии компаниями Isuzu Motors и Hino Motors уже проведены тестирования беспилотных грузовых автомобилей). Самообучение таких транспортных средств сведёт к минимуму вероятность возникновения аварийных ситуаций. [1]
- Банки. Применение алгоритмов машинного обучения с использованием облачных технологий для централизованного хранения информации о клиентах позволяет без привлечения аналитиков и на качественно новом уровне решать следующие задачи: сегментация клиентов, обнаружение мошенничества, кредитный скоринг (оценка кредитоспособности клиента), индивидуальные предложения для клиентов, прогнозирование ухода клиентов и привлечение новых клиентов. [3]
Теперь, выделив основные сферы применения технологий машинного обучения на текущем этапе их развития, стоит, всё-таки, разъяснить общие понятия и привести некоторую классификацию систем машинного обучения.
Машинное обучение в общем смысле – это комплекс статистических методов для выявления некоторых закономерностей в данных и создания на их основе нужных прогнозов. [5]
Классифицировать системы машинного обучения можно по следующим признакам:
- По целевой направленности:
- классификация – задача системы заключается в распределении параметров по некоторым категориям;
- регрессия – конечной целью работы системы является получение некоторого прогнозного значения;
- выявление аномалий – задача системы заключается в идентификации точек данных, выделяющихся чем-либо из множества других. [4]
- По способу обучения:
- контролируемое – осуществление прогнозирования на основе набора примеров (иначе говоря, системе даны вопросы и правильные на них ответы);
- не контролируемое обучение – присуще системам, цель алгоритма которых заключается в упорядочивании данных или описании их структуры (системе предоставлены данные, исходя из которых, выделяются некоторые признаки и закономерности);
- обучение с подкреплением – цель системы – ставить эксперименты, получать результаты и на их основании обучаться. Алгоритм в процессе своего обучения меняет стратегию для достижения лучшего результата. Такой алгоритм является наиболее автономным и достигает лучших результатов в выполнении поставленной задачи. Однако, таким системам свойственна проблема переобучения (об этом далее). [4]
- По архитектуре: нейронные сети, автоэнкодеры, свёрточные нейронные сети, развёртывающие нейронные сети, рекуррентные нейронные сети и многие другие. Приведенные архитектуры систем машинного обучения имеют различную сложность, различное число и характер входных параметров, требуют различных вычислительных мощностей. Для каждой конкретной задачи необходимо выбрать подходящую архитектуру.
Миллиарды людей по всему миру ежедневно используют поисковые системы для получения ответов на свои вопросы. Однако мало кто знает о том, что в составе каждой поисковой системы присутствует система машинного обучения.
Каждый раз, когда пользователь вводит поисковый запрос в браузере, сервисами соответствующей поисковой системы осуществляется выборка объектов, удовлетворяющих условиям поиска. Количество отобранных таким образом объектов исчисляется миллионами. Следующий этап отбора заключается в отсеивании объектов, которые менее всего отвечают условию поиска. Для этого необходимо оценить степень соответствия объектов условию поиска. Эта степень соответствия вычисляется с помощью подсчёта весов каждого параметра поиска, присущего каждому объекту. По завершению этого процесса, оставшиеся объекты сортируются по убыванию степени соответствия этих объектов параметрам поискового запроса. Таким образом, пользователю предоставляется ответ на поисковый запрос.
Но каким образом происходит оценка степени соответствия объектов параметрам поискового запроса? Неужели каждому объекту необходимо вручную сопоставить все возможные комбинации и формулировки параметров поисковых запросов? Данная задача является непосильной, если её не автоматизировать, а сделать это можно, подключив нейронную сеть или систему глубокого обучения. Так, вначале вручную необходимо определить относительно небольшую долю соответствий объектов и параметров их классифицирующих, а так же весов этих соответствий, а затем дополнять эти данные, выделяя некоторые критерии из поведения пользователей, осуществляющих поиск. Если пользователь нашёл искомый объект первым (или в числе первых) в списке, предоставленном системой, то цель поисковой системы достигнута и происходит соответствующая переоценка весов соответствия. В противном случае, основываясь на поведении пользователя, система устанавливает новые соответствия (и назначает им веса) либо меняет веса существующих соответствий.
Таким образом, по мере обработки поисковых запросов пользователей, система «обучается» и начинает выдавать всё более близкие к требуемым пользователям результаты. Занимательный факт в работе таких поисковых систем состоит в том, что даже создавшие их программисты не могут однозначно сказать, какой ответ выдаст поисковая система на некоторый запрос пользователя.
На сегодняшний день исследованием и развитием сферы машинного обучения занимаются такие крупные компании, как: Microsoft, Google, IBM, Intel, Facebook, Cisco, Amazon, Apple, Samsung.
Существует ряд проблем, над решением которых работают эти флагманы IT-индустрии.
Выбор архитектуры
Правильно выбранная для конкретной задачи архитектура позволяет в значительной мере сэкономить время. Однако, сделать этот правильный выбор в данном случае довольно сложно. Необходимо разобраться в принципе действия десятков существующих на сегодняшний день архитектур систем машинного обучения. После нужно выделить наиболее значимые факторы, которые будут оказывать влияние на работу системы, с учётом специфики поставленной задачи.
Процесс выбора архитектуры в данном случае довольно сложен и порой становится камнем преткновения в решении задачи.
Решить данную проблему может помочь создание специальных алгоритмов, помогающих в выборе конкретной архитектуры системы машинного обучения в зависимости от вида решаемой задачи.
Нехватка данных
Для того чтобы система давала адекватный и точный ответ на запрос пользователя, её в свою очередь необходимо «обучить». Иными словами, нужно занести в базу знаний системы довольно большой объём данных. Кроме того, эти данные зачастую ещё необходимо получить экспериментально (что может требовать значительных финансовых затрат).
С развитием сети Интернет сбор требуемых данных значительно упростился. Кроме того, для хранения таких данных создаются специальные облака, доступ к которым как никогда прост. Так же сегодня сбор этих исходных данных можно автоматизировать с помощью того изобилия различных гаджетов, что мы пользуемся каждый день.
Однако, объём данных узкоспециализированных отраслей, а так же отраслей, где получаемые данные не формализованы всё ещё недостаточно велик и на сегодняшний день только начинают предприниматься попытки это исправить.
Распознавание смысла и сути данных
Одной из самых значимых на сегодняшний день задач систем машинного обучения является преобразование понятных человеку представлений информации в представление, понятно машине. Казалось бы, эта задача уже реализована: возможно преобразование человеческой речи в печатный текст (даже при наличии шума в среде записи звука) и наоборот. Однако если в качестве поискового запроса ввести, например «каменный замок», то мы получим набор картинок с изображениями архитектурных сооружений из камня, крепостей; если ввести «железный замок», то получим изображения не только искомых устройств фиксации для запирания дверей, крышек, ёмкостей и прочего, но и опять изображения крепостей (при чём каменных, а не железных, что соответствовало бы условию запроса).
Данный случай показывает, что системы машинного обучения пока не способны к распознаванию смысла. А конкретно к выявлению омонимии «за̀мок» - «замо̀к», что ставит системы в тупик при возникновении подобных ситуаций.
В настоящее время многими компаниями ведётся работа по созданию способа решения описанной проблемы.
Переобучение
Проблема переобучения заключается в чрезмерной подгонке параметров системы машинного обучения к значениям обучающей выборки. В таком случае наблюдается процесс потери точности системы по мере дальнейшего обучения либо выявление системой закономерностей и связей между элементами обучающей выборки, которых на самом деле не существует (в зависимости от целевого назначения системы).
Для решения данной проблемы в случае, если целевой задачей системы является регрессия, рекомендуется разбивать обучающую выборку на две части: обучающую и тестовую. По мере «обучения» системы в таком случае наступит момент, когда точность регрессии основанной на тестовой выборке начнёт понижаться. Это и есть момент, когда система начинает переобучаться.
Однако в случае, если целевой задачей системы является классификация, то нет чёткого критерия определения момента, когда систему машинного обучения стоит считать обученной.
Заключение
Практика применения информационных технологий на сегодняшний день показывает, что последние начинают выступать в роли операционных технологий.
Если раньше система показывала результат своей работы пользователю, а затем последний должен был принять некое решение, учитывая этот результат, то сейчас, получив результат, система сама принимает решение о некоем действии в рамках поставленной перед ней задачи. Таким образом, открываются новые возможности в автоматизации множества процессов как производственного, так и бытового характера.
Список литературы:
- Волков К., Забродина Е. В Японии изобрели «беспилотный» грузовик // Российская газета. – 24.11.2016. – №267. [электронный ресурс] – Режим доступа. – URL: https://rg.ru/2016/11/24/v-iaponii-vypustili-pervyj-v-mire-bespilotnyj-samosval.html (дата обращения 09.04.2017)
- Нафиков М. Обзор задач компьютерного зрения в медицине // ресурс для IT-специалистов. – 04.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://habrahabr.ru/post/309152/ (дата обращения 09.04.2017)
- Петухов Д. Machine Learning в коммерческих банках // сетевое издание. 25.07.2015. – [электронный ресурс] – Режим доступа. – URL: http://www.codeinstinct.pro/2015/07/big-data-in-banking.html (дата обращения 10.04.2017)
- Эриксон Г. Выбор алгоритмов машинного обучения Microsoft Azure // Документация Microsoft Azure. – 14.03.2017. – [электронный ресурс] – Режим доступа. – URL: https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-algorithm-choice (дата обращения 11.04.2017)
- Marr Bernard. Cheat Sheet: 5 Things Everyone Should Know About Machine Learning // Forbes. 22.09.2016. – [электронный ресурс] – Режим доступа. – URL: https://www.forbes.com/sites/bernardmarr/2016/09/22/cheat-sheet-5-things-everyone-should-know-about-machine-learning/#7d481bb32dcf (дата обращения 11.04.2017)
дипломов
Оставить комментарий