Статья опубликована в рамках: XXXV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 18 декабря 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРИМЕНЕНИЕ BIG DATA В СОВРЕМЕННЫХ IT-ТЕХНОЛОГИЯХ
Аннотация
Изучение самого понятия Big Data и принципы работы с ними, рассмотреть различные методики анализа Big Data. Рассмотрение примеров практической работы с Big Data.
Ключевые слова: Big Data, анализ данных, маркетинг, история Big Data, алгоритмы рабы с Big Data
Многие ошибочно полагают, что маркетинг от математики алгоритмов и больших вычислений очень далек. Но современная электронная коммерция показывает то, что классический маркетинг остался практически в прошлом веке. На смену ему пришло время аналитики и так называемых «Больших данных».
Что можно считать «Большими данными». Уточнения термина Big Data, часто говорят про 3V – дело не просто в размере:
Volume – Действительно большие (хотя размер зависит от доступных ресурсов для обработки)
Variety – Слабо структурированные и разнородные
Velocity – Обрабатывать необходимо очень быстро (причем и результаты нужны оперативно, если речь идет об онлайновых сервисах)
Отраслями, которые можно считать самыми активными с точки зрения применения Big Data являются финансы; медицина; государство; high-tech и интернет компании.
Рассмотрим пример, который наиболее широко раскрывает не только само понятие «Большие данные», но и дает понять, с какими проблемами придется столкнуться и что они дадут миру. Сеть американских магазинов Target 9-10 лет назад всерьез занялась аналитикой своих покупателей. Занимаясь этой аналитикой, они привлекли огромное количество математиков, которые разработали и ввели алгоритм для анализа будущего поведение человека, основываясь на машинной обучаемости. По сути, что сделало «Большие данные» такими популярными – это возможность, задействовав алгоритмы на машинной обучаемости, дать возможность обучиться на какой-либо выборке сформированной различными людьми, дальше позволить машине самой принимать решения. Так вот анализируя эти данные, Target использовал на них алгоритмы, которые следили за тем, как в разных ситуациях меняются предпочтение пользователей, что они вдруг начинают покупать, что они перестают покупать. Эта система позволяла делать различные выводы в частности, рассылать специальные предложения, когда по мнению этого алгоритма, человек в этих предложениях мог быть заинтересован. И классическая история произошла весной 2012 года, когда алгоритм, на основе исходных данных послал покупательнице (школьнице), кучу буклетов с товарами для беременных. Ее отец поднял шумиху, написал в газеты и когда через какое-то время к нему приехали официальные представители Target принести свои извинения и уладить дело без суда. Выяснилось, что девушка действительно беременна, она даже сама не знала и ее отец принес извинения. И при более детальном изучении такого решения алгоритма, выяснилось, что даже при смене марки лосьона для тела, частота покупки некоторых классов гигиенических товаров, меняется у человека просто в силу физиологии.
Ярчайшим примером применение Big Data в различных индустриях, является интернет ресурс Ancestry.com. Сайт занимается тем, что выстраивает всю семейную историю человечества, настолько, насколько можно вглубь. Они применяют разнообразные источники данных и, в частности, такие как всевозможные записи о событиях в жизни человека (записи в церковно-приходской книге, загсе, больницах, перепись населения и др.); данные, которые пользователи вводят сами.
Еще один тип Big Data, которые позволяют установить связи между различными записями, представляет собой анализ ДНК по слюне человека (экспресс анализ стоит 99$).
На данный момент, база данных этого сайта насчитывает более 5 миллиардов карточек пользователей (зарегистрировавшихся, умерших или внесенных пользователями).
Рассмотрим принцип работы.
При помощи машинного обучения анализа Big Data идет поиск и сопоставление тех или иных данных по всей базе данных, с применением допустимых отклонений, уникальных индификаторов (опечатки, совпадение имен и фамилий, ошибок в регистрационных данных и др.). Если научится работать с таким питом данных, который не может быть до конца достоверным, то можно строить семейные деревья с погрешностью от 5% до 25%. Стандартные алгоритмы не работают с такими данными, но пресловутое машинное обучение, обучившись на том, какие бывают типичные ошибки, какой диапазон ресинхронизации даты (если, допустим 15 параметров совпадают, кроме даты смерти – то это тот самый человек).
Для этих целей разрабатывается специальная математика диссонансных функций. Эти функции позволяют определить наиболее вероятные ошибки, которые дают возможность эти ошибки исключить при построении связей и зависимостей и тем самым поднять достоверность.
Построение семейного древа всего человечества за всю историю, позволило получить в итоге:
- Генеалогические деревья и установление родства.
- Миграция глобальная и внутри страны.
- Историческая картина демографии.
В ходе исследований было выявлено, что большой объем данных не всегда является показателем Big Data. Big Data необходимо внедрять во все сферы жизни, особенно это актуально для медицины и государственных учреждений в нашем регионе.
Сами по себе большие данные без внятных методов их обработки, без четкого понимания, что должно быть на выходе, практически ничего не стоят. Ценны не сами данные, ценны выводы, которые разные компании могут сделать из анализа больших данных.
Список литературы:
- Большие данные – Википедия [Электронный ресурс] Режим доступа: https://ru.wikipedia.org/wiki/Большие_данные
- Что такое Большие данные (Big Data)? [Электронный ресурс] Режим доступа: http://hr-portal.ru/blog/chto-takoe-bolshie-dannye-big-data
- Технология Big Data (Анализ Больших Данных) [Электронный ресурс] Режим доступа: http://www.clouderp.ru/tags/BIG_DATA/
- « Big Data: основы сбора и анализа данных» - программа обучения [Электронный ресурс] Режим доступа: http://netology.ru/programs/big-data?utm_source=context&utm_medium=681&utm_campaign=bd-yandex-search&utm_content=3959196976&utm_term=Big%20data&yclid=1557921821343090640&stop=1
дипломов
Оставить комментарий