Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 1(297)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10, скачать журнал часть 11

Библиографическое описание:
Мотькин И.Д., Пучков А.Д. ЭКОСИСТЕМА Apache ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ // Студенческий: электрон. научн. журн. 2025. № 1(297). URL: https://sibac.info/journal/student/297/357451 (дата обращения: 21.02.2025).

ЭКОСИСТЕМА Apache ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ

Мотькин Илья Дмитриевич

магистрант, МИРЭА – Российский технологический университет,

РФ, г. Москва

Пучков Алексей Дмитриевич

магистрант, МИРЭА – Российский технологический университет,

РФ, г. Москва

АННОТАЦИЯ

В настоящее время всё более популярным становится термин «большие данные» (Big Data), однако обработки огромных массивов данных требует использования специальных инструменты, так как традиционные методы для хранения и обработки такого рода данных перестают быть эффективными. Экосистема Apache представляет собой одну из наиболее популярных платформ с широким набором инструментов как для обработки, так и анализа хранения больших данных. В данной статье были рассмотрены ключевые компоненты для этой экосистемы, их функциональные возможности, а также области для практического применения, описаны преимущества интеграции инструментов Apache для работы с большими данными.

ABSTRACT

Nowadays, the term “Big Data” is becoming more and more popular, but the processing of huge data sets requires the use of special tools, as traditional methods for storing and processing this kind of data are no longer effective. The Apache ecosystem is one of the most popular platforms with a wide range of tools for both processing and analyzing Big Data storage. This article has reviewed the key components for this ecosystem, their functionality, and areas for practical application, describing the benefits of integrating Apache tools for big data processing.

 

Ключевые слова: большие данные, обработка данных, анализ данных, Apache, распределённые системы.

Keywords: big data, data processing, data analytics, Apache, distributed systems.

 

Большие данные (Big Data) – это обширные и сложные наборы данных, которые трудно обрабатывать с помощью традиционных инструментов обработки данных [1]. Они характеризуются тремя основными свойствами:

  • объем (большое число данных, которые поступают из различных источников, таких как социальные сети, IoT-устройства)
  • скорость (высокая скорость получения, а также обработки данных в режиме реального времени)
  • разнообразие (широкий спектр различных типов данных, включая структурированные, неструктурированные данные: текст, изображения, видео и другие)

Одним из важнейших элементов экосистемы Apache является Hadoop, платформа для работы с большими данными, которая позволяет эффективно хранить и обрабатывать огромное объемы данных, а также поддерживает распределённые вычисления [2]. Платформа включает в себя несколько отдельных компонентов:

Hadoop Distributed File System (HDFS) – распределенная файловая система, обеспечивающая хранение больших объемов данных с помощью кластеров, система разбивает файлы на блоки и распределяет их по узлам кластера, благодаря этому возможно более эффективно использовать ресурсы и обеспечивать высокую доступность данных.

Yet Another Resource Negotiator (YARN) – система управления ресурсами, которая распределяет задачи между узлами кластера и позволяет запускать набор различных приложений на одном кластере, что позволяет оптимизировать использование ресурсов.

MapReduce – модель программирования для обработки данных в параллельном режиме, она разбивает задачи на более мелкие подзадачи, которые могут выполняться параллельно, таким образом значительно ускоряется процесс обработки имеющихся данных.

Для обработки данных в памяти применяется инструмент Apache Spark, который является более производительным по сравнению с Hadoop, а также для работы с ним возможно использовать множество современных языков программирования: Python, Java и Scala, а также набор библиотек для работы с машинным обучением (MLlib) или обработки графов (GraphX). Данный инструмент включает и собственный язык для работы с данными – Spark SQL. Ключевыми особенностями Apache Spark являются обработка загруженных данных в памяти без использования файловой системы, а также возможность масштабирования с помощью кластеров, состоящих из тысячи узлов, которые выполняются обработку необходимых данных [3].

Рисунок 1. Схема взаимодействия с Apache Spark

 

В качестве нереляционной СУБД в экосистеме Apache используется Cassandra, которая также предназначена для обработки больших объёмов данных и использует систему масштабируемости с помощью кластеров, а значит и не имеет единой точки отказа, что крайне важно для достижения высокой доступности данных. Данная система управления базами данных поддерживает гибкую схему для данных, благодаря этому возможно более эффективно работать с различными типами данных, включая в том числе как структурированные, так и неструктурированные. Подобная СУБД подходит для приложений, которые требуют высокой скорости чтения и записи данных, например, социальные сети.

 

Рисунок 2. Схема кластера из узлов для Apache Cassandra

 

Таким образом, экосистема Apache предоставляет для использования большое количество инструментов для работы с большими данными, которые возможно использовать для более эффективной организации процессов обработки, хранения и анализа огромных объемов информации, но каждый из них имеет свои уникальные особенности и преимущества, поэтому стоит выбирать наиболее подходящие решения для конкретных задач.

 

Список литературы:

  1. What is Big Data // Oracle [Электронный ресурс] – URL: https://www.oracle.com/cis/big-data/what-is-big-data/
  2. Apache Hadoop // Apache [Электронный ресурс] – URL: https://hadoop.apache.org/
  3. Apache Spark // Apache [Электронный ресурс] – URL: https://spark.apache.org/

Оставить комментарий