Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CLXXXIX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 30 мая 2024 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Галимуллин Р.Б. ПОВЫШЕНИЕ НАДЕЖНОСТИ И БЕЗОПАСНОТИ МИГРАЦИОННЫХ ДАННЫХ ЧЕРЕЗ ВНЕДРЕНИЕ DATALAKE // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CLXXXIX междунар. студ. науч.-практ. конф. № 10(188). URL: https://sibac.info/archive/meghdis/10(188).pdf (дата обращения: 28.01.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ПОВЫШЕНИЕ НАДЕЖНОСТИ И БЕЗОПАСНОТИ МИГРАЦИОННЫХ ДАННЫХ ЧЕРЕЗ ВНЕДРЕНИЕ DATALAKE

Галимуллин Ришат Борисович

студент, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

Сулейманова Алла Маратовна

научный руководитель,

канд. тех. наук, доц., Уфимский университет науки и технологий,

РФ, г. Уфа

ENHANCING THE RELIABILITY AND SECURITY OF MIGRATION DATA THROUGH THE IMPLEMENTATION OF A DATALAKE

 

Rishat Galimullin

student, Department of Automated Control System, Ufa University of Science and Technology,

Russia, Ufa

Alla Suleymanova

scientific supervisor, сandidate of Technical Sciences, associate professor, Ufa University of Science and Technology,

Russia, Ufa

 

АННОТАЦИЯ

В данной статье рассматривается процесс миграции данных в системе "ЭРА: Ремонты" и предлагается внедрение Datalake для повышения надежности и безопасности данных. Существующий процесс миграции данных зависит от внешней системы "Шахматка и Техрежим", что увеличивает риски простоев и потери данных. Внедрение Datalake, представляющего собой группу схем в базе данных "ЭРА: Ремонты", обеспечивает внутреннее хранение и управление данными, улучшая их защиту и контроль. В статье проведен анализ рисков, который демонстрирует значительные преимущества нового метода миграции, такие как гибкость и возможность масштабирования, а также сниженные риски потери данных и несанкционированного доступа. На основе качественного анализа показано, что предлагаемые изменения существенно улучшают общую работу системы "ЭРА: Ремонты", делая процесс миграции данных более надежным и безопасным.

ABSTRACT

This article discusses the process of data migration in the "ERA: Repairs" system and proposes the implementation of Datalake to improve the reliability and security of data. The existing data migration process depends on the external system "Shahmatka and Tehrezhim", which increases the risks of downtime and data loss. The implementation of Datalake, which is a group of schemas in the ERA: Repairs database, provides internal storage and management of data, improving their protection and control. The article provides a risk analysis that demonstrates the significant benefits of the new migration method, such as flexibility and scalability, as well as reduced risks of data loss and unauthorized access. Based on a qualitative analysis, it is shown that the proposed changes significantly improve the overall operation of the ERA: Repairs system, making the data migration process more reliable and secure.

 

Ключевые слова: информационная система; миграция данных; datalake; интеграция.

Keywords: information system; data migration; datalake; integration.

 

Введение. Современные информационные системы сталкиваются с постоянно растущими объемами данных и необходимостью их надежного и безопасного хранения. В таких условиях процесс миграции данных играет ключевую роль в обеспечении бесперебойной работы систем. Одной из таких систем является "ЭРА: Ремонты"[12], предназначенная для сопровождения текущего и капитального ремонта скважин. На текущий момент система "ЭРА: Ремонты" зависит от данных, получаемых из внешней системы "Шахматка и Техрежим" [17]. Эта зависимость увеличивает риски, связанные с простоями, потерей данных и ограничениями в управлении доступом.

Существующий процесс миграции данных в системе "ЭРА: Ремонты" имеет ряд недостатков, которые могут негативно сказаться на надежности и безопасности данных. В частности, зависимость от внешней системы создает риски, связанные с доступностью данных и возможностью их утраты. Более того, текущая архитектура ограничивает возможности оптимизации и масштабирования системы, что может стать препятствием для дальнейшего развития и интеграции новых функций.

Для решения этих проблем предлагается внедрение Datalake, представляющего собой группу схем в базе данных "ЭРА: Ремонты". Datalake обеспечивает внутреннее хранение данных, что позволяет улучшить контроль над ними, повысить их безопасность и снизить зависимость от внешних систем. Кроме того, использование Datalake открывает новые возможности для масштабирования и гибкости системы, что способствует ее дальнейшему развитию.

В данной статье проводится анализ существующего процесса миграции данных и предлагаются изменения, направленные на внедрение Datalake. Для обоснования эффективности предложенных изменений проведен анализ рисков, демонстрирующий значительные преимущества нового подхода. Введение Datalake позволяет значительно снизить риски потери данных, а также повысить общую надежность системы "ЭРА: Ремонты".

Цель исследования — показать, как внедрение Datalake может улучшить процесс миграции данных, обеспечивая более высокую степень защиты и надежности, а также предложить практические рекомендации по реализации данного подхода в других информационных системах.

Основная часть.

Система "ЭРА: Ремонты" предназначена для сопровождения текущего и капитального ремонта скважин. Для корректной работы одного из модулей этой системы необходимы данные, которые находятся в другой системе под названием "Шахматка и Техрежим". Система "ЭРА: Ремонты" разработана на языке C# и включает реализацию для получения данных из системы "Шахматка и Техрежим" каждые 2 часа. Данные обрабатываются и сохраняются в базе данных "ЭРА: Ремонты", работающей на PostgreSQL, в то время как база данных системы "Шахматка и Техрежим" работает на Oracle.

Для лучшего понимания текущего процесса миграции данных и выявления его узких мест, необходимо разработать функциональную модель IDEF0 [18] существующего процесса. Это позволит наглядно представить все этапы и взаимодействия, а также выявить области, требующие улучшения.

Ниже представлена функциональная модель существующего процесса «Миграция данных из сторонней системы» с последующей декомпозицией.

 

Рисунок 1. Контекстная диаграмма процесса «Миграция данных из сторонней системы»

 

Целью является анализ процесса миграции данных из сторонней системы. Процесс рассматривается младшим разработчиком C#.

Входными данными является Команда запуска миграции.

Выходом из процесса являются Сохранённые обработанные данные.

Механизмами, осуществляющих работу в процессе, выступают ИС «Шахматка и Техрежим», ИС «ЭРА: Ремонты».

Управлением выступают Инструкция по охране труда, Бизнес-правила, Закон о защите персональных данных.

 

Рисунок 2. Диаграмма декомпозиции процесса «Миграция данных из сторонней системы»

 

Рисунок 3. Диаграмма декомпозиции подпроцесса «Получение данных из сторонней системы»

 

Рисунок 4. Диаграмма декомпозиции подпроцесса «Обработка полученных данных»

 

Рисунок 5. Диаграмма декомпозиции подпроцесса «Сохранение обработанных данных в БД»

 

Описание проблемы существующего процесса.

Существующий процесс миграции данных из системы "Шахматка и Техрежим" в систему "ЭРА: Ремонты" имеет несколько существенных недостатков, которые негативно влияют на надежность, безопасность и производительность системы. На основании функциональной модели (IDEF0), представленной выше, выделены следующие основные проблемы:

1. Зависимость от внешней системы: один из модулей системы "ЭРА: Ремонты" напрямую зависит от данных, поступающих из внешней системы "Шахматка и Техрежим". В случае недоступности или сбоя системы "Шахматка и Техрежим" процесс миграции данных прерывается, что может привести к простою системы "ЭРА: Ремонты".

2. Ограниченный контроль над данными: данные, полученные из системы "Шахматка и Техрежим", не могут быть полностью контролируемы системой "ЭРА: Ремонты". Доступ к данным в системе "Шахматка и Техрежим" осуществляется только на чтение, что ограничивает возможности по управлению и оптимизации данных.

3. Высокий риск потери данных: в случае сбоев в системе "Шахматка и Техрежим" существует риск утраты данных, что может привести к недоступности критически важных данных для системы "ЭРА: Ремонты" и нарушит бизнес-процессы компании, а также может повлиять на корректность данных.

В существующем процессе используются SQL-запросы к БД Oracle, которые представляют собой выборки определенных столбцов, а также включают в себя работу различных функций, таким образом, в систему «ЭРА: Ремонты» поступают уже преобразованные данные.

Для обеспечения безопасности и контроля данных было принято решении о создании Datalake на стороне системы «ЭРА: Ремонты». Datalake подразумевает собой группу таблиц, представляющих из себя полные копии таблиц-источников необработанных данных в БД Oracle, которые выделяются приставкой “dl_” в названии таблиц.

Преобразование данных для модуля системы «ЭРА: Ремонты» осуществлялось посредством выполнения SQL-запросов к БД Oracle. В связи с тем, что появился Datalake, то эти запросы теперь необходимо направить в БД системы «ЭРА: Ремонты». Однако, БД системы «ЭРА: Ремонты» - PostgreSQL, поэтому возникает необходимость в переписывании запросов с синтаксиса Oracle на PostgreSQL.

Ниже представлены измененные диаграммы функциональной модели для предлагаемого процесса:

 

Рисунок 6. Диаграмма декомпозиции процесса «Миграция данных из сторонней системы»

 

Рисунок 7. Диаграмма декомпозиции подпроцесса «Обработка полученных данных»

 

Рисунок 8. Диаграмма декомпозиции подпроцесса «Сохранение данных в Datalake»

 

Для проверки правильности принятых проектных решений проведено имитационное моделирование. Для этого были построены динамические модели по методологии BPMN на основе пакета IBM WebSphere Business Modeler.

Для начала для наглядности была реализована BPMN-модель процесса миграции данных, представленная на рисунке 9.

 

Рисунок 9. BPMN процесса миграции данных

 

Схематичное представление процесса позволяет выявить слабые места в существуемом механизме миграции данных, так при возникновении ошибки внесения данных, данные таблиц, мигрировавших без ошибок будут обновленными, а данные таблиц, при миграции которых произошла ошибка не обновятся и будут старыми. Таким образом дальнейшие вычисления будут иметь некорректные параметры.

Также есть вероятность, что в исходной таблице БД по разным причинам может произойти удаление данных, что напрямую отразится и на миграции данных, так как отсутствуют необходимые методы для контроля данных ситуаций.

Составим BPMN-модель процесса, при возникновении подобной ситуации, связанной с некорректными данными.

 

Рисунок 10. BPMN-модель действий при обнаружении ошибки пользователем

 

В таблице 1 показаны ресурсы затрат до внедрения Datalake.

Таблица 1.

Ресурсы затрат до внедрения Datalake

Задача

Длительность

Открытие страницы с данными

1 секунда

Уведомление разработчиков ИС ЭРА Ремонты

Равномерн. распределение (5-15 минут)

Получение уведомления об ошибке

Равномерн. распределение (1-30 минут)

Устранение ошибок

Равномерн. распределение (30-90 минут)

Перезапуск миграции данных

Равномерн. распределение (30-90 минут)

Получение сообщения о завершении миграции

1 секунда

Уведомление пользователей об устранении ошибки

Равномерн. распределение (5-15 минут)

Получение уведомления об устранении ошибок

Равномерн. распределение (1-30 минут)

Обновление страницы с данными

1 секунда

Итого в среднем

170 минут 3 секунды

 

Рисунок 11. Результаты имитационного моделирования

 

При 100%-ной вероятности обнаружения ошибки с первого открытия страницы минимальное затраченное время на разрешение проблемы, связанной с некорректностью данных, составило 2 часа 18 минут. Критичность ситуации обуславливается тем, что пользователь может не сразу обнаружить ошибочные данные, что приведет к возникновению накопительного эффекта возникновения ошибок.

Теперь рассмотрим процесс интеграции данных после внедрения Datalake.

 

Рисунок 12. Процесс миграции данных в Datalake

 

Процесс миграции теперь заключается в извлечении исходных данных без преобразования и записи в Datalake. В процесс миграции добавлены проверки на соответствие схем исходных и целевых таблиц, а также на уровень объема миграционных данных. При обнаружении подобных ошибок происходит блокировки миграции таблицы и создается соответствующая запись в таблицу контроля миграций Datalake.

Для своевременного принятия решений в планировщике была создана задача на проверку таблицы контроля миграции данных, которая срабатывает сразу после работы миграции данных Datalake.

 

Рисунок 13. Процесс проверки таблицы контроля миграции данных в Datalake

 

Для преобразования данных в планировщике была создана отдельная задача.

 

Рисунок 14. Процесс преобразования данных после внедрения Datalake

 

После внесенных изменений работа пользователя будет выглядеть следующим образом.

 

Рисунок 15. BPMN-модель действий пользователя

 

Таким образом была полностью устранена вероятность сценариев, связанных с ошибочными данными, возникающими по причине некорректной работы системы.

 

Рисунок 16. Сравнение результатов имитационного моделирования процессов

 

Выводы:

В результате исследования было подтверждено, что внедрение Datalake в систему "ЭРА: Ремонты" является перспективным решением для повышения надежности и безопасности процесса миграции данных. Преимущества этого подхода включают улучшенный контроль над данными, уменьшение зависимости от внешних систем, а также значительное снижение рисков потери данных и несанкционированного доступа.

Анализ существующих угроз и проведенное имитационное моделирование показывают, что внедрение Datalake позволяет значительно уменьшить потенциальные риски, связанные с простоями и потерей данных, при этом увеличивая гибкость системы и её способность к масштабированию. Это важно для поддержания эффективности бизнес-процессов в условиях растущих объемов данных.

Рекомендуется дальнейшее изучение возможностей Datalake и проработка технических аспектов интеграции для обеспечения максимальной эффективности и минимизации времени на доработку системы "ЭРА: Ремонты". Также важно рассмотреть вопросы обучения персонала для работы с новой системой хранения данных, чтобы обеспечить ее эффективное использование и поддержание на высоком уровне безопасности обработки и хранения информации.

В заключение, предложенные изменения не только повышают безопасность и надежность данных, но также способствуют более широкой интеграции и улучшению производительности системы, что в конечном итоге может оказать значительное влияние на общую работоспособность и эффективность бизнес-процессов в компании.

 

Список литературы:

  1. Огородов А.В., Тишкевич С.В., Фролов Д.А., Шестаков Д.А., Брыляков В.Е., Гизатуллин А.Р. ЭРА:Ремонты - Информационная система для повышения эффективности бизнес-процесса при текущих и капитальных ремонтах скважины // PROнефть. Профессионально о нефти. 2019. №1 (11).
  2. Дроздов А.Н., Хамидуллин Р.Д., Шестаков А.Д., Сарапулов Н.П., Хабибуллин Р.А. Информационная система "Шахматка и Техрежим" для повышения эффективности процессов нефтедобычи // Территория Нефтегаз. 2015. №10.
  3. Моделирование и анализ систем. IDEF-технологии: практикум / С.В. Черемных, И.О. Семенов, B.C. Ручкин. – М.: Финансы и статистика, 2006. – 192с.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий