Статья опубликована в рамках: LXXVII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 22 июля 2024 г.)
Наука: Информационные технологии
Секция: Автоматизация и управление технологическими процессами и производствами
Скачать книгу(-и): Сборник статей конференции
дипломов
ИНФОРМАЦИОННЫЙ АНАЛИЗ БОЛЬШИХ ОБЪЁМОВ ДАННЫХ
INFORMATION ANALYSIS OF LARGE VOLUMES OF DATA
Elena Kulakova
Software engineer at JSC «Scientific-industrial Enterprise «Rubin»,
Russia, Penza
Denis Putilov
Software engineer at JSC «Scientific-industrial Enterprise «Rubin»,
Russia, Penza
Vladislav Sidyakin
Software engineer at JSC «Scientific-industrial Enterprise «Rubin»,
Russia, Penza
Alina Volnikova
Electronics engineer JSC «Scientific-industrial Enterprise «Rubin»,
Russia, Penza
Ekaterina Zabrovskaya
Electronics engineer JSC «Scientific-industrial Enterprise «Rubin»,
Russia, Penza
АННОТАЦИЯ
Статья посвящена обзору технологий «большие данные» и ее особенностей. В данной статье рассматривается, что такое BigData, текущее состояние дел, перспективы развития.
ABSTRACT
The article is devoted to an overview of big data technologies and its features. This article discusses what BigData is, the current state of affairs, and development prospects.
Ключевые слова: большие данные, BigData, информационные системы, данные.
Keywords: big data, BigData, information systems, data.
Information analysis of large amounts of data
Большие данные - это огромные, часто неупорядоченные массивы информации, а также технологии работы с ними. Использование больших данных является одним из наиболее распространенных тенденций в сфере ИТ.
В конце концов, использование больших данных открывает новые возможности для бизнеса и помогает компаниям расти, предоставляя своим клиентам персонализированные услуги и продукты. Объем информации вокруг нас быстро растет: в 2020 году пользователи сгенерировали почти 60 зеттабайт (то есть около 60×1021 байт) данных, а к 2025 году, по оценкам, их будет в три раза больше [1].
Рисунок 1. Диаграмма роста данных по годам
Методология
Для проведения информационного анализа больших объемов данных используются различные методы, такие как статистический анализ, машинное обучение, искусственный интеллект, а также специализированные инструменты и программное обеспечение. Основными этапами информационного анализа данных являются сбор данных из различных источников, их очистка от лишней информации и ошибок, предварительная обработка, включающая преобразование данных в удобный для анализа формат, а также построение моделей и интерпретация результатов.
Важным этапом информационного анализа данных является визуализация результатов. Графики, диаграммы, тепловые карты позволяют наглядно представить информацию и выделить ключевые тренды и закономерности. Кроме того, для эффективного информационного анализа используются специализированные методы, такие как анализ кластеров, классификация, регрессионный анализ, и другие.
Анализ BigData - это важнейшее направление в технологическом развитии, и основные международные инвестиции в это. Большие данные актуальны для бизнеса, науки и государственного управления.
Инструменты обработки больших данных, следующие:
Apache Hadoop распределенная система хранения и обработки данных, использующая большое количество серверных узлов для распределения задач обработки данных. Это помогает обрабатывать Big - объемы данных параллельно и снижает время обработки [2, с 3];
Apache Spark открытая платформа для обработки больших данных, которая позволяет производить вычисления на производительность [2, с 10];
Основные свойства BigData
Объем (Volume)- данных должно быть много. Поток информации измеряется в петабайтах и эксабайтах, а не в терабайтах.
Скорость (Velocity)- большие данные постоянно извлекаются из различных источников, и этот процесс происходит быстро.
Разнообразие (Variety) BigData - это графические изображения и различные типы информации, включая текст, аудио, документы, журналы. Они могут быть неупорядоченным или частично упорядоченным [3, c. 5], [4].
Анализ и работа с BigDat
Большинство аналитиков ссылаются на инструменты для обработки и анализа больших данных и аналитики. Эта модель распределенной обработки данных, предложенная Google, предназначена для обработки больших объемов данных.
Рисунок 2. Схема работы
Стадия Мар - Задача состоит в том, чтобы предварительно обработать и отфильтровать данные. Эта работа выполняется на функциональных языках программирования, где для каждого набора входных данных используется пользовательская функция.
Стадия Shuffle – Проходит незаметно для пользователя. На этом этапе выходные данные функции Mar сортируются по корзинам, каждой корзине соответствует выходной ключ уровня Mar. В будущем эти корзины будут служить входом для Reduce.
Стадия Reduce – Любая корзина, сформированная в фазе перемешивания, отправляется на вход функции уменьшения. Функция уменьшения устанавливается пользователем и вычисляет конечный результат для одной корзины [5].
Преимущества использования BigData
- Работать с большими объёмами информации;
- Строить более точные прогнозы и принимать более взвешенные решения;
- Мгновенно реагировать на сбои и уязвимости;
- Строить долгосрочные стратегии;
- Исправлять ошибки и улучшать продукт.
Проблемы использования BigData
- Трудности с масштабированием;
- Высокие риски;
- Высокие затраты [6, 7].
Заключение
Информационный анализ больших объемов данных играет важную роль в современном обществе, позволяя компаниям и организациям получать ценные знания из доступной информации, оптимизировать процессы и повышать конкурентоспособность. Методы анализа данных, такие как статистический анализ, машинное обучение и визуализация, позволяют обнаруживать скрытые закономерности, выявлять тренды и прогнозировать будущие события.
Специалисты по анализу данных играют важную роль в современном мире, помогая бизнесу, науке и обществу в целом делать обоснованные решения и прогнозировать тренды. Понимание принципов информационного анализа больших данных и умение применять соответствующие методы и инструменты становится необходимым навыком в нашей цифровой эпохе.
Таким образом, информационный анализ больших объемов данных становится неотъемлемой частью современного бизнеса и науки, обеспечивая рост эффективности и качества принимаемых решений. В дальнейшем, развитие методов анализа данных и использование новейших технологий позволит создавать более точные и надежные модели для прогнозирования и оптимизации процессов в различных отраслях.
Список литературы:
- Новости Software https://overclockers.ru/softnews/show/109408/v-2020-godu-polzovateli-interneta-sgenerirovali-64-2-zettabajt-dannyh-no-tolko-2-ot-etogo-obema-bylo-sohraneno;
- «Технологии хранения и обработки больших данных Hadoop» Тимур Машнин 2021г.;
- Интеллектуальный анализ больших данных А.А. Алетдинова М.Ш. Муртазина 2023г;
- Новости РБК Тренды https://trends.rbc.ru/trends/innovation/5d6c020b9a7947a740fea65c
- ХАБР bigdata от А до Я https://habr.com/ru/articles/267361/
- Статья из журнала «Инновационная экономика» Перспективы развития и совершенствования Проблемы использования технологии Big Data в современных рыночных условиях Куликова О.М., Тропынина Н.Е.
- Research&trends Маркетинговые исследования https://www.r-trends.ru/trends/trends_920.html?ysclid=ly2t3p75ez133179212
дипломов
Оставить комментарий