Статья опубликована в рамках: Научного журнала «Студенческий» № 13(141)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3
ПРОБЛЕМЫ ОБРАБОТКИ ДАННЫХ СОЦИАЛЬНЫХ СЕТЕЙ
Хотя доступ к данным социальных сетей доступен с использованием API, из-за коммерческой ценности данных, большинство основных источников, таких как Facebook и Google не открывают доступ к своим "сырым" данным; очень мало источников социальных данных предоставляют такие данные в открытый доступ. Службы новостей, например, Thomson Reuters и Bloomberg взимают плату за доступ к своим данным. В то время как Twitter открывает гранты на исследование своих данных для ученых в некоммерческих целях.
Ученые имеют доступ к данным из 500 миллионов твитов в день. Исследователи постоянно находят новые источники данных для объединения и анализа. Поэтому, когда используется текстовый анализ, требуется обрабатывать различные ресурсы, например, RSS-каналы, блоги, новости, социальные сети, дополненные телекоммуникационными данными, геопространственными данными, видео данными и т.д. Использование нескольких типов данных ведет к успешному анализу.
Рассмотрим основные проблемы и проблемы обработки данных из социальных сетей.
Разнообразие форматов данных. Данные в социальных сетях в основном изображаются с помощью специального языка разметки HTML (Hypertext Markup Language), ведь социальные сети разворачивают на отдельных серверах и большинство пользователей открывают их с помощью веб-браузера. HTML-широко известный язык разметки веб-страниц, который используется для просмотра и разметки в веб-браузере. HTML состоит из HTML элементов, таких как теги, скобки, угловые скобки и т.д., вместе формирующие содержимое веб-страницы любой социальной сети.
Некоторые новостные сайты позволяют загружать свои данные в формате XML (Extensible Markup Language) - язык разметки для структурирования текстовых данных с использованием специальных тегов. Большинство известных социальных сетей позволяют получить данные в формате JSON используя специальный веб-интерфейс, JSON (JavaScript Object Notation) - это открытый стандарт предназначен для сериализации данных, используется для обмена данных между серверами, устройствами. Такое разнообразие форматов создает необходимость в создании специальных программ-обработчиков, или так называемых парсеров данных, которые могут обработать полученные данные и выдать сырые данные для дальнейшей обработки текстовыми анализаторами.
Очистка данных от “шума”. Даже после предварительной обработки данных парсером, полученные данные еще нельзя использовать для анализа. Через гетерогенную природу данных социальных сетей, а также разнообразие этих данных, в основном они хранят ненужную для исследований информацию. Удаление ненормированного текста и ненужных данных все еще является вызовом для аналитиков и ученых. Традиционный подход к очистке текстовых данных-извлечение данных в электронную таблицу для дальнейшего переформатирования текста. Например, Google Refine - это автономное приложение для очистки данных и преобразования в различные форматы. Выражения трансформации написаны в форме Google Refine Expression Language (GREL) или JYTHON (реализация языка программирования Python, написанная на Java) [6].
Неструктурированность данных. Важным принципом в обработке и анализе данных есть "качество против количества” данных. На самом деле, много деталей об аналитических моделях определяются по типу и качеству данных. Природа данных также окажет влияние на базу данных и аппаратное обеспечение. Естественно, неструктурированные текстовые данные могут быть очень нецелостными, грязными. Следовательно, очистка данных важная сфера анализа социальных сетей. Процесс очистки данных может предусматривать удаление типографских ошибок или подтверждение и корректировка значений зная известный список вхождений. В частности, текст может содержать ошибочные слова, цитаты, программные коды, лишние пробелы, дополнительные строки, прерывания, специальные символы, иностранные слова и т. д. Для того, чтобы добиться высококачественной обработки текста, необходимо произвести очистку данных. Просмотрев виды и источники сырых данных, мы можем перейти к "очистке" данных для удаления неправильной, непоследовательной или отсутствующей информации. Перед обсуждением стратегии очистки данных, важно определить возможные отсутствующие данные - имеется определенная часть информации, которая была включена по определенной причине в необработанные данные, которые были получены. Проблемы возникают с числовыми данными, когда пустые символы заменяются на 0, которые затем выбираются, как например, цена, а также с текстовыми данными - когда недостающее слово может изменить полное значение предложения.
2. Неправильные данные – часть информации может быть неправильно указана (например, десятичные ошибки в числовых данных или неправильное слово в текстовых данных) или неправильное толкование (например, система, которая принимает валютную стоимость в $, если на самом деле было передано значение в £, или предполагается, что текст использует диалект английского США, а не британский английский).
3. Несоответствующие данные – если есть часть информации, которая была указана непоследовательно. Типичным примером ошибки с использованием числовых данных, а именно различные форматы даты: 10/04/2014, 14/10/2012 или 14/10/2012.
Для текстовых данных - использование одного и того же слова в разных случаях и т.д.
Поскольку большинство данных о социальных сетях создается людьми и поэтому он не структурированы (т. е. они не имеют предопределенной структуры или модели данных), требуется использование алгоритмов, способных преобразовать следующие данные в структурированные, для дальнейшего анализа полученных данных. Поэтому неструктурированные данные должны быть предварительно обработаны, тегированы, чтобы анализировать данные социальных сетей. Добавление дополнительной информации к данным (тегирование) можно выполнять вручную или с помощью специальных инструментов, которые ищут шаблоны или интерпретируют данные с помощью методов таких как анализ данных и анализ текста. Тегирование неструктурированных дани обычно включает тегирование данных с помощью метаданных. Понятно, что неструктурированный характер данных социальных сетей приводит к неоднозначности и неравномерности, после обработки компьютером. Использование единого набора данных может дать интересные результаты.
Недоступность “сырых” данных. Данные социальных сетей являются защищенными и в основном доступ к открытым данным предоставляется через API, то есть исследователи не имеют доступа к открытым базам данных для выполнения анализа. Поэтому нужно использовать специальные библиотеки для обработки HTTP запросов на серверы социальных сетей для получения порции данных, причем, через гетерогенность и постоянную обновляемость данных, этот процесс становится намного сложнее. Некоторые социальные сети даже не предоставляют доступа к своим данным через API интерфейсы бесплатно, или требуют использования специализированных инструментов - источники, которые обеспечивают контролируемый доступ к своим данным о социальных медиа через специальные инструменты, для облегчения получения таких данных, так и для остановки возможности похищения данных [1].
Существует все большее количество коммерческих сервисов, обрабатывающих данные социальных сетей, для обеспечения платного доступа с помощью простых инструментов аналитики. Кроме того, такие компании, как Twitter, ограничивают свободный доступ к своим данным и лицензировать свои данные реселлерам, таким как Gnip и DataSift. Gnip является крупнейшим поставщиком таких данных в мире.
Список литературы:
- Работа с открытыми данными: особенности публикации и использования в российском правовом поле, аналит. доклад [Электронный ресурс].
- Рубаков С.В. Современные методы анализа данных // Наука. Инновации. Образование.
Оставить комментарий