Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 23 января 2017 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Кондратенко И.Р., Левиков И.В. АНАЛИЗ ЭФФЕКТИВНОСТИ ПРЕДСКАЗАНИЯ ИСХОДОВ СПОРТИВНЫХ СОБЫТИЙ, НА ОСНОВЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ О ХОККЕЙНЫХ МАТЧАХ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. XIII междунар. студ. науч.-практ. конф. № 2(13). URL: https://sibac.info/archive/meghdis/2(13).pdf (дата обращения: 26.11.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 1 голос
Дипломы участников
У данной статьи нет
дипломов

АНАЛИЗ ЭФФЕКТИВНОСТИ ПРЕДСКАЗАНИЯ ИСХОДОВ СПОРТИВНЫХ СОБЫТИЙ, НА ОСНОВЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ О ХОККЕЙНЫХ МАТЧАХ

Кондратенко Игорь Ринатович

магистрант по направлению «Бизнес-информатика», Кафедра информационных технологий и экономической информатики, Институт Информационных Технологий, ЧелГУ,

РФ, г. Челябинск,

Левиков Иван Владимирович

магистрант по направлению «Бизнес-информатика», Кафедра информационных технологий и экономической информатики, Институт Информационных Технологий, ЧелГУ,

РФ, г. Челябинск,

Мельников Виталий Андреевич

научный руководитель,

канд. экон. наук, доц. кафедры информационных технологий и экономической информатики, Институт Информационных Технологий, ЧелГУ,

РФ, г. Челябинск

Аннотация: В настоящее время существует значительный объем накопленной информации о спортивных событиях. Как следствие, проблема накопления информации отходит на второй план, уступая место проблеме ее обработки. В статье рассматриваются проблемы планомерного анализа текста, очищения его от не нужных данных и использования полученных данных анализа тональности в целях предсказания исхода спортивных событий, на примере хоккейных матчей.

Ключевые слова: Анализ текстов, естественный язык, информационный поиск, размеченные корпуса, машинное обучение, эмоциональный анализ, НХЛ, хоккей, AFINN-96, AFINN-111, AFINN-165

В современном мире информация является одним из самых ценных ресурсов, независимо от сферы деятельности. Однако объем информации растет с каждым днем и найти то, что действительно необходимо становится задачей всё более трудной. К сожалению, темп обработки информации человеком не так велик, чтобы решать серьезные задачи. В этом случае на помощь приходят информационные технологии. Обработка информации предполагает ее очищение от ненужных данных (шума). Одним из самых распространенных способов хранения информации является естественный язык. Он представляет из себя форму изложения информации, которую использует человек в повседневной жизни, что обеспечивает легкое восприятие при обработке именно для человека, чего не скажешь о машинах.

Для решения этой проблемы в последнее время стало набирать обороты такое направление, как обработка естественного языка (NLP – natural language processing), которая в свою очередь призвана решать задачи:

  1. информационного поиска;
  2. машинного перевода;
  3. анализа чувствительности (тональности) текста;
  4. отвечать на вопросы, сформулированные с помощью естественного языка;
  5. классификации текстов;
  6. реферирования и пр.

В данной статье будет рассмотрена задача анализа тональности текста с целью прогнозирования исходов хоккейных матчей, основанных на публикациях в СМИ.

Для начала рассмотрим суть этой задачи. Анализ тональности текста предназначен для обработки текстов на естественном языке с целью определения положительного или отрицательного эмоционального окраса. С точки зрения полезности этого метода, его можно рассматривать в качестве выявления отношения покупателей в интернет-магазинах, основываясь на отзывах; оценка рецензий фильмов, оценка политических настроений среди избирателей и т.д.

Несмотря на всю практическую значимость, способ имеет и некоторые недостатки, например, сложности при оценке определенных слов в рамках разных контекстов, зависимость от тематики и др.

Существует три метода определения тональности текстов:

  1. Анализ текстов с помощью уже готового размеченного корпуса. Обычно такие корпуса состоят из оцененных слов, словосочетаний и иных лексических форм с определенной тональностью и ее силой. Этот способ характерен своей простотой, но при этом основной проблемой является несовершенство словаря. Суть данного метода представлена в работе [3], в которой рассмотрены методы обработки текстовых файлов с помощью алгоритма анализа тональности (эмоциональной составляющей) данных, основанный на оценке слов. Реализация анализа проходит в несколько этапов: оценка морфологической составляющей текста, распределение слов в тональные классы, синтаксический анализ с итогом определения тональности текста.
  2. Анализ текстов с помощью методов машинного обучения. Этот способ, в свою очередь, тоже подразделяется на два метода: с учителем и без учителя. Оба метода рассчитаны на использование документа как вектора лемм. Их отличие состоит в том, что определение тональности с учителем проводится на заранее размеченных документах.
  3. Комбинированный подход. Как видно из названия, является симбиозом первых двух методов. Его сложность заключается в правильном определении способа из взаимодействия.

В работе [1] представлено практическое решение анализа тональности текста. Строится лингвистическая модель для составление тональных классов. Основными классами являются: позитивный, негативный, нейтральный. Так же в докладе представлена схема оценки слов с присвоением классов. Итогом проделанной работы является определение эмоционального образа исходного текста.

На основе тональных словарей и лингвистического анализа текстов ведутся исследования не только в России, но и зарубежном.  Исследователи работающие зарубежном вносят в данную тематику элементы машинного обучения, что является вторым подходом тонального анализа. В одном из таких исследований [10] представлен анализ состоящий из ряда последовательных шагов: 1) извлечение из текста специфичных терминов и словесных оборотов; 2) выявление и присвоение тональности образа; 3) выявление ассоциаций. Все перечисленный этапы являются элементами машинного обучения, и, как следствие, реализуются с помощью работы с тональными словарями и распределения терминов в классы, что и представляет собой составление тональных шаблонов для дальнейшей работы.     

Немалый вклад в исследования анализа тональности текста привнесли зарубежные работы [6] и [7], в которых представлены современные методики и подходы анализа текста, основанные на составление эмоциональных шаблонов и машинного обучения. В этих исследованиях рассматривается машинное обучение, основанное на работе с классами в тональных словарях. Данный подход представляется, как наиболее превосходным над подходами, которые основываются только на составлении тональных словарей. В работе [8] представлено более подробное описание метода составление классов тональных словарей с использованием машинного обучение на основе субъективных предложений, так как предложения с объективными суждениями, как правило, несут нейтральный характер и мало эмоциональны.

Во всех исследования на данную тематику существуют проблемы работы с тональными словарями для машинного обучения. При работе с текстом любой анализ тональности извлекает большое множество классов. Для обучающих данных возникает потребность распределение классов по степени важности. Данные проблемы были рассмотрены в работе [5]. Итогом исследований стало создание метода распределение важности терминов с использованием оценки тональности. В работе [9] представлено решение выше перечисленных проблем и устранение погрешностей за счет работы с лексическими правилами и совместной работы машинного обучения с человеком на первоначальных этапах.

В работе [4] предлагается другой путь решения вышеперечисленных проблем, который основывается на сокращении времени на составление тональных словарей и перенаправление времени на извлечение тональных шаблонов и машинное обучение совместно с человеком. Итогом данного метода является сокращение времени на процесс обработки текстов и снижение погрешностей за счет обучения. Таким образом, комбинированный подход машинного обучения и работы с тональными словарями является приоритетным для исследования тональных алгоритмов для анализа текстов.

В данной статье будет рассматриваться метод анализа с помощью размеченного корпуса. При этом в качестве результата будет определен не только класс документа (положительный или отрицательный), но и степень его характеристики.   

Формат статей представлен на рисунке 1. Статьи берутся из официального сайта Национальной Хоккейной Лиги [2].

 

Рисунок 1. Образец статьи (документа)

 

Прежде чем приступить непосредственно к подсчету тональности, необходимо выполнить предобработку данных: сначала тексты были очищены от так называемых «стоп-слов» (к ним относятся частицы, союзы, предлоги, местоимения, иначе говоря, те слова, которые не несут никакого смысла при самостоятельном применении), затем каждое из оставшихся слов проходит лемматизацию – приведение слова к нормальной форме.

Следующий этап – это выбор размеченного корпуса для анализа тональности текстов. Рассмотрим следующие корпуса:

  1. WordNet-Affect – это тезаурус, составленный на основе WordNet. Здесь каждый синсет связан с определенной эмоциональной меткой (эмоция, чувство, состояние, отношение и т.д.). В свою очередь все метки тоже разделены на четыре главные категории: позитивная, негативная, неоднозначная и нейтральная. Сам словарь представлен как шесть файлов: радость (joy.txt), страх (fear.txt), гнев (anger.txt), печаль (sadness.txt), отвращение (disgust.txt), удивление (surprise.txt). На сегодняшний день WordNet-Affect составляет чуть менее 5000 слов.
  2. SentiWordNet – это словарь, разработанный на основе машинного аннотирования элементов WordNet. Каждый элемент оценивается в диапазоне от 0 до 1 в рамках трех измерений: объективность, позитивность и негативность, причем сумма оценок для каждого синсета должна быть равна 1.
  3. В отличие от первых двух тезаурусов SenticNet позволяет выявлять связи между словами на семантическом уровне. Его суть заключается в том, что каждому понятию присваивается вектор с такими параметрами: приятность, внимание, чуткость и способность, а также величина тональности.
  4. В четвертую группу включено сразу несколько корпусов: MPQA, BingLiu’s   , AFINN. Данный подход рассматривается в статье (12). Сама их структура схожа – это набор пар «ключ-значение», где ключом является слово, а значением оценка тональности.

В данной статье будет рассмотрена именно последний пункт. Хочется еще отметить, что для проведения анализа было взято три версии словаря AFINN (AFINN-96, AFINN-111, AFINN-165). После проведения стадии разбиения на леммы, оценка чувствительности считалась как:

 

 

 

где:   rating(k) – оценка тональности документа k;

         rating(i) – оценка тональности слова i;

         n – количество слов в документе i.

В результате оценки были получены определенные значения для каждой из статьи. После этого необходимо было сравнить 2 статьи (по одной на команду, которая участвует в матче) и выбрать ту, у которой рейтинг выше. Чтобы выбрать наиболее подходящий словарь, была получена точность оценки по каждому из корпусов, с помощью формулы (2).

 

 

 

 

Как видно из результатов на рисунке 2, самым лучшим корпусом из представленных является AFINN-111 – из 1202 статей было правильно определено 526. 

Заключение

В заключении хотелось бы отметить, что полученные результаты оказались не так высоки. Однако это не говорит о том, что такой метод прогнозирования результатов использовать не рекомендуется. В этой работе был представлен только ряд корпусов и один метод анализа тональности текстов. В дальнейшем будут проработаны незатронутые в этой статье подходы к решению поставленной задачи. И уже тогда можно будет делать вывод о целесообразности использования этого метода обработки естественного языка.

 

Список литературы:

  1. Ермаков А. Е., Киселев С. Л. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ. Компьютерная лингвистика и интеллектуальные технологии: междунар. конф. Диалог’2005. М.: Наука, 2005. 
  2. Официальный сайт национальной хоккейной лиги. URL: https://www.nhl.com (дата обращения: 19.12.2016).
  3. Пазельская А. Г., Соловьев А. Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: cб. научных статей. М.: Изд-во РГГУ. – 2001 – №10 – С. 510–522
  4. König A., Brill E. Reducing the Human Overhead in Text Categorization // Proc. of KDD. 2006.
  5. O'Keefe T., Koprinska I. Feature selection and weighting methods in sentiment analysis // Australasian Document Computing Symposium. 2009.
  6. Pang B., Lee L. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2. No. 1–2 (2008). P. 1–135.
  7. Pang B., Lee L. Thumbs up? Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural. Language Processing (EMNLP). Philadelphia. 2002. P. 79–86.
  8. Pang B., Lee L. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts // Proc. of the ACL. 2004.
  9. Prabowo R., Thelwall M. Sentiment analysis: A combined approach // Journal of Informatics. 2009.
  10. Yi J. Nasukawa T., Niblack W., Bunescu R. Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques // Proc. of the 3rd IEEE international conference on data mining (ICDM 2003) Florida. USA. P. 427–434.
Проголосовать за статью
Конференция завершена
Эта статья набрала 1 голос
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.