Статья опубликована в рамках: XXXVII-XXXVIII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 21 апреля 2021 г.)
Наука: Информационные технологии
Секция: Системный анализ, управление и обработка информации
Скачать книгу(-и): Сборник статей конференции
дипломов
ТЕХНОЛОГИЯ BIG DATA- ЧТО ЭТО?
BIG DATA TECHNOLOGY - WHAT IS IT?
Maria Osipova
Student, Kazan National Research Technical University named after A.N.Tupolev-KAI»,
Russia, Kazan
Alla Osipova
Senior Lecturer of Department of Automated for System Information Processing and Control, Kazan National Research Technical University named after A.N. Tupolev-KAI»,
Russia, Kazan
АННОТАЦИЯ
В последние годы много говорят о технологиях Big Data, которые активно разрабатываются и используются все в больших сферах нашей жизни. В данной статье рассмотрим технологии Big Data:
-основные их признаки,
- с какими проблемами и сложностями приходится сталкиваться тем, кто их собирается внедрять.
-какие методики используются и для чего можно использовать технологии Big Data.
ABSTRACT
In recent years, Big Data technologies have been actively developed and used in more and more areas of our life. In this article, we will get acquainted with this technology, learn its main features, what problems and difficulties those who are going to implement it have to face. What techniques are used and what can Big Data technology be used for.
Ключевые слова: обработка данных; big data; базы данных; большие данные; хранение данных; проблемы больших данных; большие данные в бизнесе; облачные хранилища; система VVV.
Keywords: data processing; big data; databases; data storage; big data problems; big data in business; cloud storage; VVV system.
Введение
Большие данные (Big Data) — так называются структурированные и неструктурированные данные огромных объёмов (от 100Гб), и большого разнообразия атрибутов, а также инструменты, которыми эти данные обрабатываются.
Наиболее часто в качестве базового принципа обработки больших данных указывают горизонтальную масштабируемость, обеспечивающую обработку данных, распределённых на множество вычислительных узлов, без деградации производительности.
Для того чтобы конкретизировать определения в Big Data, были введены определенные признаки, которым они должны соответствовать. Все признаки начинаются на V, поэтому система называется VVV.
• Volume – объём. Объём информации измерим, т.е. конечен.
• Velocity – скорость. Объём информации имеет тенденцию постоянно наращиваться - и инструменты для обработки должны уметь это учитывать.
• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.
К этим трём принципам позже добавились дополнительные признаки V. Такие как, veracity – достоверность, т.е. непротиворечивость, полнота и точность данных, value – ценность т.е. пригодность к практическому использованию или viability – жизнеспособность, т.е. соответствующей текущей ситуации.
Однако для того чтобы понять, что же такое Big Data, надо понимать первые три признака этих данных, а именно, что данные можно измерить, они постоянно наращивают свой объем и то, что данные не являются однообразными.
Как работают с Big Data?
В больших данных содержится много разной и полезной информации, которая используется компаниями для создания новых технологий принятия решений и новых бизнес-моделей. Работа с большими данными состоит из 3 этапов:
1 этап. Интеграция
Здесь происходит внедрение новых технологий выборки необходимых данных из существующих и неограниченных источников информации. Внедряются механизмы, с помощью которых аналитики будут обрабатывать, и форматировать информацию.
2 этап. Управление
Вопрос о хранении информации решается до начала работы с большими данными и решение принимается на основе различных критериев в первую очередь это формат и технологии обработки, которую используют в компании. Как правило, это локальные хранилища или различные облачные сервисы.
3 этап. Анализ
Этот этап заключительный для работы с большими данными. Данные должны помогать принимать правильные решения и это происходит только после того, как будет проведен анализ собранной информации. Для работы с большими данными используют технологии машинного обучения, ассоциацию правил обучения и так далее.
После данного этапа остаются только ценные и самые необходимые для развития компании данные.
Техники и методы анализа и обработки Big Data
К основным методам анализа и обработки данных можно отнести следующие:
Методы класса или глубинный анализ (Data Mining)
Данные методы достаточно многочисленны, но их объединяет одно: математический инструментарий, использующий всё самое современное из сферы информационных технологий.
Краудсорсинг
Данная методика позволяет обрабатывать данные одновременно из нескольких источников несколькими разно профильными специалистами, причем количество источников практически не ограничено.
А/В-тестирование
Из всего объема данных выбирается контрольное множество элементов, которое поочередно сравнивают с другими подобными множествами, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольное множество. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.
Прогнозная аналитика
Специалисты в данной области стараются заранее спрогнозировать и рассчитать, как будет вести себя подконтрольный объект, чтобы принять наиболее правильное в этой ситуации решение.
Машинное обучение (искусственный интеллект)
Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.
Сетевой анализ
Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами. [1]
Проблемы Big Data
На Рис 1. представлена статистика, по которой видно с какими проблемами чаще всего сталкиваются при внедрении технологии Big Data.
Рисунок 1. Проблемы Big Data
Рассмотрим основные и самые большие проблемы, с которыми приходится сталкиваться при внедрении и использовании этой технологии.
Проблема 1. Затраты.
Эта первостепенная и самая большая проблема для компаний, которые собираются внедрять в работу технологию Big Data: дорогостоящее оборудование, которое требует не только обслуживания для поддержки его в рабочем состоянии, но и регулярного обновления для сохранения работоспособности при каждом увеличении объема данных. Растут и затраты на квалифицированных специалистов, которые могут работать с большими объемами информации.
Проблема 2. Выбор важной информации.
Эта проблема вытекает из того, что аналитики работают с очень большим и разнообразным объём данных, что усложняет анализ и затрудняет выбор действительно необходимого. Особенно это сложно, когда проводятся множество разнообразных исследований, которые дают множество результатов и надо выбрать именно те результаты, которые будут иметь реальное для компании значение и обладать серьезным влиянием на работу.
Проблема 3. Конфиденциальность.
Эта проблема возникает из-за того, что все больше используются онлайн технологии для взаимодействия с клиентами и данными, а хранение информации происходит в облачных хранилищах. Это приводит к проблемам с кибербезопасностью и к киберпреступлениям. Ведь кража или другое несанкционированное взаимодействие с коммерческой информацией может привести к крайне нежелательным и весьма серьезным последствиям. Поэтому компании, решающие внедрить технологию Больших Данных в работу, должны внедрять весьма и весьма серьезные методы, и технологии для защиты данных.
Проблема 4. Потеря информации.
Для обеспечения защиты и хранения информации меры предосторожности требуют не только однократно резервировать данные, но также делать несколько копий самого хранилища. Традиционные методы резервирования для Big Data не подходят.
Имеются и другие проблемы. Например, готово ли предприятие к внедрению этой технологии, как внедрить ее, да и сейчас не так много компаний, которые поставляют технологии Big Data.
Перспективы и тенденции развития Big data.
Сейчас данная технология перестала быть чем-то новым и необычным, а ее важность и актуальность с каждым годом все растет. Теперь уже предполагают, что, технология Big Data будет распространяться не только среди крупных предприятий, но и более мелких. Это может быть реализовано через следующие технологии.
Облачные хранилища
Хранение и обработка данных становятся более быстрыми и экономичными по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала. Аренда облака представляется гораздо более дешевой альтернативой.
Искусственный интеллект и Deep Learning
Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.
Blockchain
Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Blockchain в том, что, благодаря ему снижаются затраты на проведение транзакций.
Сложности при использовании
Технологии Big Data при наличии больших возможностей имеют и большие сложности.
В первую очередь трудности связаны с необходимостью хранить большой объем данных. Технологии хранения развиваются, но и объем данных также растет. Можно приобрести большое хранилище, но от простого хранения пользы мало, данные надо обрабатывать, а это еще одна проблема. Надо наладить обработку самих данных.
Обработкой больших данных занимаются люди, и на обработку уходит много времени, так как заказчикам данные требуются в определенном виде. Необходимы значительные финансовые затраты, так как компаниям нужно большое количество таких специалистов.
Проблема и то, что технологии Big Data быстро развиваются, появляются новые инструменты и сервисы. А это опять деньги и время, так как бизнес должен развиваться. А многое зависит именно от быстроты и качества обработки данных.
Вывод
В данной статье рассмотрены основные моменты технологии Big Data:
- что она подразумевает под собой,
- какими признаками обладает,
-какие техники и методики используются в данной технологии.
-какие с ней связаны проблемы
- и с какими сложностями сталкиваются компании при ее внедрении.
Но, не смотря на все сложности и проблемы, технологии Big Data активно развиваются. На их основе разрабатываются новые сервисы и технологии, они внедряются во все большие сферы нашей жизни, от банков и предприятий до систем «Умного дома». А сама технология будет доступнее все большему количеству предприятий независимо от их габаритов.
Список литературы:
- Big Data – что такое системы больших данных? Развитие технологий Big Data [Электронный ресурс] https://promdevelop.ru/industry/big-data-chto-takoe-sistemy-bolshih-dannyh/
- Big data [Электронный ресурс] https://www.calltouch.ru/glossary/big-data/
- Big Data: как устроены большие данные и где они сейчас применяются [Электронный ресурс] https://tproger.ru/articles/big-data-explanation-megafon/
- Что такое большие данные [Электронный ресурс] https://invlab.ru/texnologii/bolshie-dannye/
дипломов
Оставить комментарий