Статья опубликована в рамках: Научного журнала «Студенческий» № 11(223)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4

Библиографическое описание:

Федоров И.Ю. ОБЗОР СУЩЕСТВУЮЩИХ ИНСТРУМЕНТОВ ВЕРИФИКАЦИИ ДАННЫХ И ИХ ТРЕНДОВ РАЗВИТИЯ // Студенческий: электрон. научн. журн. 2023. № 11(223). URL: https://sibac.info/journal/student/223/283057 (дата обращения: 26.04.2025).

ОБЗОР СУЩЕСТВУЮЩИХ ИНСТРУМЕНТОВ ВЕРИФИКАЦИИ ДАННЫХ И ИХ ТРЕНДОВ РАЗВИТИЯ

Федоров Илья Юрьевич

магистрант, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

Антонов Вячеслав Викторович

научный руководитель,

д-р техн. наук, кафедра автоматизированных систем управления, Уфимский университет науки и технологий,

РФ, г. Уфа

OVERVIEW OF EXISTING DATA VERIFICATION TOOLS AND THEIR DEVELOPMENT TRENDS

Ilya Fedorov

Masters’s student, Department of automated control systems, Ufa University of Science and Technology,

Russia, Ufa

Vyacheslav Antonov

Scientific supervisor, Doctor of Technical Sciences, Department of automated control systems, Ufa University of Science and Technology,

Russia, Ufa

АННОТАЦИЯ

В данной статье рассматриваются преимущества и недостатки наиболее популярные инструментов верификации данных. А также проводится обзор основных трендов развития этих решений и перспектив для применения в собственных системах проверки данных.

ABSTRACT

This article discusses the advantages and disadvantages of the most popular data verification tools. It also provides an overview of the main trends in the development of these solutions and prospects for use in its own data verification systems.

Ключевые слова: качество данных; проверка данных; система верификации данных; цифровой актив; тренды развития; автоматизация; LowCode.

Keywords: data quality; data verification; data verification system; digital asset; development trends; automation; LowCode.

Введение

В начале XXI века интернет и IT-технологии проникли во все сферы человеческой жизни. Промышленность не стала исключением, это означает, что предприятия начинают переход на полностью автоматизированное цифровое производство, управляемое интеллектуальными системами в режиме реального времени в постоянном взаимодействии с внешней средой, выходящее за границы одного предприятия. В перспективе это должно привести к формированию глобальной промышленной сети интернета вещей. Так называемая Индустрия 4.0 характеризует текущий тренд развития автоматизации и обмена данными, который включает в себя киберфизические системы, интернет вещей и облачные вычисления [3]. Представляет собой новый уровень организации производства и управления цепочкой создания стоимости на протяжении всего жизненного цикла выпускаемой продукции.

Цифровизация промышленности приводит к тому, что предприятия начинают работать с цифровыми данными. Данные становятся новым видом актива наряду с классическими физическими активами, а следовательно, обращаться с ними нужно соответствующе: вкладывая человеческие и временные ресурсы, а также контролируя качества для получения желаемого эффекта. Для современных компаний информация это «новая нефть». Все больше и больше компаний из разных сфер бизнеса осознают ценность данных и развивают это направление [5]. Внедрение в работу процессов контроля качества ложатся различные инструменты по верификации данных. Существующие решения по верификации нацелены на проверку важных для бизнеса данных, а если быть точнее, то удовлетворение этих данных некоторым требованиям. Требования к данным обычно отражают высокоуровневую, с точки зрения разработки, логику. Такая логика описывается на языке бизнеса и предназначена для решения соответствующих задач. В свою очередь, реализация модулей проверки данных требует более детально описания. Под проверку соответствия данных каждому бизнес-требованию создаются конкретные алгоритмы проверки, именуемые бизнес-правилами. Прогоняя данные по таким сценариям, появляется возможность не просто выявить неточность в хранимой информации, но и сделать выводы о причинах неуспешности за счет пошаговой проверки. Сами по себе проверки могут быть запущены в зависимости от требований бизнеса. Наиболее популярные решения это:

Запуск по расписанию
Запуск по событию

В обоих случаях проверке может быть подвергнута выборка данных на основе некоторого ограничения, либо все хранилище целиком. Примером ограничения выборки может выступать заданный период дат, а хранилище обычно представляет собой таблицу в базе данных или файл, хранимый на сервере. По итогу таких проверок можно сделать вывод о качестве хранимых данных, а следовательно, и об их применимости в дальнейшей работе. В области качества данных можно выделить два государственных стандарта. Первый стандарт, это ГОСТ Р ИСО 8000-100-2019 [1]. В этом стандарте определяются требования и руководство по улучшению качества данных в предприятиях и организациях. Рассматриваются вопросы, связанные с управлением качеством данных, их надежностью и достоверностью. Цель стандарта - минимизировать ошибки и неточности при обработке данных, что способствует повышению эффективности работы предприятия. Он также содержит рекомендации по организации и управлению процессами сбора, обработки и использования данных, а также по обеспечению их конфиденциальности. Второй стандарт, введенный в 2015 году стандарт систем менеджмента качества ГОСТ Р ИСО 9000-2015 обозначает ряд основополагающих показателей, в том числе, качества данных [2]:

Доступность;
Актуальность;
Полнота;
Уникальность;
Связность;
Точность.

Актуальность

Постоянный рост объемов генерируемых, хранимых и обрабатываемых данных вынуждает компании обращаться с ними как с полноценным активом. За этим активом нужно следить в должности степени и поддерживать на необходимом уровне качества. На рынке программного обеспечения постоянно появляются различные решения, которые позволяют более эффективно управлять информацией и следить за соблюдением всех критериев качества. Все эти инструменты позволяют повысить ценность цифровых активов, генерируемых компаниями.

Цель

Определить возможные способы оптимизации процесса верификации данных за счет модернизации инструментов.

Задачи

Исходя из поставленной цели можно выделить следующие задачи:

Проанализировать существующие инструменты верификации данных
Выявить достоинства и недостатки
Определить основные тренды развития проанализированных решений и рынка в целом

Основная часть

Существующие решения верификации данных. Рынок современных инструментов по работе с качеством данных предлагает большое количество различных решений. Каждое из которых позволяет проектировать сценарии проверки данных с целью контроля за соответствием заданным критериям. Исследовательская и консалтинговая компания Gartner, специализирующаяся на рынках информационных технологий. Наиболее известна введением в употребление понятия ERP и регулярными исследовательскими отчётами в форматах «магический квадрант» и «цикл хайпа» представила очередное исследование в категории решения для контроля качества данных в ноябре 2022 года [4]. В этой работе Gartner провела оценку производителей программного обеспечения, которые занимаются разработкой систем по управлению качеством данных. На протяжении уже нескольких лет наиболее оцененными являются решения от компаний Informatica, SAP, SAS, Oracle и др. Все эти компании занимаются не только развитием направления качества данных, но и ведут активную разработку решение по управлению данными и их анализу.

Среди наиболее популярных инструментов для работы с качеством данных можно выделить Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality.

SAP развивает такие решения для управления качеством данных, как SAP Smart Data Quality, SAP Information Steward, SAP Data Services и SAP Data Hub. У этих продуктов насчитывается полтора десятка тысяч клиентов к моменту составления аналитического отчета. Для продуктов SAP исследователи Gartner определили такие преимущества как быстрое развитие новых функций и инноваций, гибкую настройку сценариев для работы с BigData, а также анализа и интеграции. Из недостатков пользователи отмечают высокую стоимость решений, сложную систему лицензирования и трудности в интеграции с другими системами. Кроме того, от пользователей продуктов SAP поступают жалобы на недоработки пользовательского интерфейса. В связи с чем страдает наглядное восприятие бизнес-процессов.

В решениях от компании IBM отмечается наиболее глубокое понимание рынка, что отражается в своевременном развитии разрабатываемых инструментов. В тоже время, когда пользователи переходят с других решений на решения от IBM возникают проблемы с визуализацией результатов работы и низком уровне технической поддержки. По данным на 2019 год инструмент IBM InfoSphere Information Server for Data Quality насчитывает порядка 2500 клиентов.

Что же касается решения Oracle Enterprise Data Quality, то по сравнению с другими инструментами, оно обладает шариком функционалом профилирования данных, но при этом обладает высокой стоимостью. А также пользователи отмечают недостаточный уровень поддержки и сложности при развертывании в качестве SaaS и облачных сервисах.

Говоря обо всех наиболее востребованных решениях качества данных, можно отметить схожую функциональность и направленность на работу в рамках собственной экосистемы, которая выражается в более удобном интегрировании с другими сервисами того же разработчика. Наибольше всего, среди всех решений выделяется Informatica Data Quality. Основными преимуществами этого решения можно выделить возможность проверки широкого списка типов источников данных, а также достаточно гибкую настройку правил проверки и вывода результата.

Искусственный интеллект. В ранее упомянутом отчете Gartner обозначают главным трендом развития инструментов качества данных машинной обучение и искусственный интеллект. Все это нацелено на решение различных аналитических задач. Например, очистка, структурирование, агрегирование данных и как итог принятие бизнес-решений. Но как уже говорилось, процесс проверки данных сводится к созданию небольших алгоритмов проверки данных и применение ИИ в качестве замены таких проверок, будет далеко не самым оптимальным, так как потребует затраты большего количества ресурсов на подготовительную работу, реализацию, обучение и непосредственно функционирование. Кроме того, любой искусственный интеллект не гарантирует полное соблюдение проверяемых критериев, что входит в противоречие с основной задачей процесса проверки данных, выявление ошибок в хранимых данных.

Последнее время особую популярность приобрели нейронные сети в системах распознавания речи. Наиболее популярным и функциональным решением является разработка компании OpenAI ChatGPT. Исходя из решаемой задачи формования алгоритмов проверки можно предположить, что такие системы позволят создавать алгоритмы проверки данных без участия программиста основываясь на требованиях, изложенных в текстовом формате. Потенциально это позволит решить одну из проблем создания правил проверки данных, а именно избавит от необходимости привлечения специалиста, обладающего компетенциями в программировании для реализации небольшого алгоритма. Причем, при таком подходе процесс корректировки правил проверки, так же можно будет осуществить силами аналитика качества данных. Но применение подобных инструментов не применимо в крупной корпоративной инфраструктуре. IT компании реализуют собственные программные модули, системы и обладают широким и постоянно меняющимся стеком технологий. В связи с чем, вместо того чтобы убрать из процесса разработки сценариев проверки элемент программирования, мы, наоборот, погрузим пользователя системы в детали реализации, так как для корректной генерации программного кода таким способом потребуется детально описать требования как с точки зрения бизнес-логики, так и программирования. Кроме того, при таком подходе нет гарантий, что сгенерированный программный код будет поддерживаемым с точки зрения разработчика и при необходимости программист сможет внести необходимые корректировки.

Говоря о недостатках технологии нельзя не сказать о том, что интерпретация человеческой речи компьютером является сложной задачей, так как речь человека обладает множеством особенностей и нюансов, которые могут быть трудны для понимания машиной. Можно выделить следующие значимые проблемы:

Интонация – одно из главных факторов, влияющих на сложность интерпретации речи, является интонация. Интонация может изменять смысл слов и фраз, что затрудняет работу компьютера;
Ударение – может менять смысл слов и фраз, и его правильное определение требует от компьютера высокой точности и чувствительности. Кроме того, при использовании компьютера для интерпретации речи могут возникать трудности из-за различных диалектов и акцентов;
Контекст – по аналогии с ударением имеет большое значение в восприятии смысла слов и фраз. Речь человека часто зависит от контекста, в котором она произносится, и ее понимание требует от компьютера умения анализировать ситуацию и принимать во внимание все факторы

В целом, интерпретация человеческой речи компьютером является сложной задачей, которая требует от машины высокой точности, чувствительности и способности анализировать контекст. Несмотря на это, современные технологии постоянно развиваются, и в будущем можно ожидать дальнейшего улучшения качества интерпретации речи компьютерами.

Упрощение проектирования алгоритмов проверки. В продолжение темы трендов развитии инструментов верификации данных, стоит рассмотреть различные подходы к упрощению создания сценариев проверки данных. Большинство существующих решений позволяют выполнять проверку данных на различных системах управления баз данных и составлять сценарии проверки без привлечения программиста. Второе достигается за счет реализации LowCode и NoCode подходов. Эти понятия характеризуют снижение порога настройки информационной системы до уровня ее пользователей. Другими словами, сторона бизнеса может в значительной степени менять свойства системы без привлечения разработчиков. В результате, время, затрачиваемое на реализацию и корректировку алгоритмов проверки снижается. Но при всех преимуществах с точки зрения разработчика акцент с разработки алгоритма проверки смещается на разработку инструмента, который сможет покрыть все потребности пользователя. Исключение программиста из процесса разработки правил проверки за счет перехода на LowCode или NoCode решение потенциально ведет к снижению гибкости проектируемых алгоритмов проверки и возможным проблемам с производительностью, так как теперь все сценарии будут формироваться из элементной базы, которую реализовали в том или иной системе верификации данных.

Верификация данных с разных источников. Что же касается работы с различными источниками данных, то ни один инструмент верификации не может обеспечить полное покрытие требований пользователей. Это и не удивительно, так как на рынке систем управления базами данных появляются новые решения, а старые постоянно модернизируются. При этом в качестве источника данных могут выступать различные брокеры сообщений с целью проверки данных заданным критериям в непрерывном потоке. Также проверка может выполняться посредствам подключения к другим программным системам через предоставленные программные интерфейсы. Два последних варианта являются более динамическими и не позволяют определять необходимую структуру и объемы данных по аналогии с базами данных. С точки зрения пользователя нет принципиальной разницы в том, как именно хранятся данные. В связи с этим способ взаимодействия с информацией должен абстрагировать от деталей и позволять работать с различными источниками одновременно.

Ситуация, когда информацию получают из другой системы, может вызвать проблемы с производительностью если на стороне источника объемы данных увеличатся. Программные интерфейсы взаимодействия систем, построенных на архитектуре REST зачастую, не подразумевают широких возможностей для настройки фильтрации получаемых данных, как например в SOAP, что приводит к необходимости получения полного объема информации. Вариант с валидацией информация, получаемой с файловых серверов аналогично работе с API может вызвать неожиданные просадки производительности из-за увеличившихся объемов данных (файлов). К тому же рост размера файла потребует большего времени на его чтение после скачивания. Процесс верификации данных подразумевает регулярную проверку, следовательно возникновение задержек на каждом из сценариев проверки может сказаться на общем потоке проверки. Эта проблема становится еще более критичной при потоковой валидации, когда от проверяющей системы требуется проводить оценку заданного критерия в строго отведенное время и не создавая очередей.

Вывод

Рассмотрев наиболее популярные системы в области верификации данных можно сделать вывод о том, что все крупные разработчики соответствующего ПО развивают направление упрощения проектирования алгоритмов проверки, а также средства анализа на разных этапах процесса. Но при этом их решения больше нацелены на интеграцию с другими программными продуктами собственного производства. Что же касается темы искусственного интеллекта в этой сфере, то оно наиболее востребовано в решениях задач анализа данных, например поиска аномалий и закономерностей, а также предварительной подготовки для последующей обработки. Применение искусственного интеллекта для генерации алгоритмов, а также непосредственно в качестве способов проверки соответствия заданным критериям нельзя назвать наиболее удачным применением технологии по той причине, что нельзя гарантировать выполнение заложенных требований. Кроме того, далеко не каждая компания, обладая большими объемами цифровых активов будет готова пользоваться сторонними решениями для решения собственных задач в области качества данных, а разработка своей альтернативы потребует значительных затрат.

Список литературы:

ГОСТ Р ИСО 8000-100-2019. Качество данных. Часть 100. Основные данные. Обмен данными характеристик. Обзор.: национальный стандарт Российской Федерации.: дата введения 2020-05-01 / Федеральное агентство по техническому регулированию. – Изд. официальное. – Москва.: Стандартинформ, 2020;
ГОСТ Р ИСО 9000-2015. Системы менеджмента качества. Основные положения и словарь.: национальный стандарт Российской Федерации.: дата введения 2015-11-01 / Федеральное агентство по техническому регулированию. – Изд. официальное. – Москва.: Стандартинформ, 2019;
Жданеев О.В., Чубоксаров В.С. Перспективы технологий индустрии 4.0 в ТЭК России // Энергетическая политика. 2020. №7. С.16-33;
Jain A., Chien M. Gartner Magic Quadrant for Data Quality Solutions // Gartner Research. 2022. URL: https://www.gartner.com/en/documents/4020719 (дата обращения: 22.03.2023);
Lee S. M., Lee D. H., Kim Y. S. The quality management ecosystem for predictive maintenance in the Industry 4.0 era // International Journal of Quality Innovation. 2019. Том.5. №1. С.1–11;

ОБЗОР СУЩЕСТВУЮЩИХ ИНСТРУМЕНТОВ ВЕРИФИКАЦИИ ДАННЫХ И ИХ ТРЕНДОВ РАЗВИТИЯ

Оставить комментарий