Статья опубликована в рамках: LXXVII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 22 июля 2024 г.)
Наука: Информационные технологии
Секция: Теоретические основы информатики
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОБЛЕМА ВЫБОРА ОПТИМАЛЬНОЙ ML-МОДЕЛИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ НОВОСТНЫХ ЗАГОЛОВКОВ
АННОТАЦИЯ
Классификация новостных текстов по тональности сообщений (сентимент-анализ) является актуальной и сложной задачей машинного обучения. Выбор оптимальной архитектуры модели во многом зависит от цели исследования, наличия соответствующих размеченных данных, качества разметки, экспертизы в предметной области. В данной статье проанализированы различные подходы к созданию классификатора сентимента новостных заголовков финансово-экономического характера, а также проблемы, которые важно учитывать при выборе той или иной архитектуры. Рассмотренные модели включают как относительно простые алгоритмы машинного обучения и их сочетание с использованием техник ансамблирования, так и нейросетевые архитектуры на основе LSTM и трансформеров. Представленные в статье возможные подходы к построению классификатора сентимента могут быть полезны для дальнейших исследований в данной области.
ABSTRACT
The classification of news texts by the sentiment of messages (sentiment analysis) is a relevant and complex task of machine learning. The choice of the optimal model architecture largely depends on the research goal, the availability of relevant labeled data, the quality of the labeling, as well as the expertise in the subject area. In this work, various approaches to creating a sentiment classifier for financial and economic news headlines have been analyzed, as well as problems, which are essential to take into consideration while choosing the model architecture. The considered models include both relatively simple machine learning algorithms with ensemble techniques, as well as neural network architectures based on LSTM and transformers. The possible approaches to building a sentiment classifier presented in the article can be useful for further research in this area.
Ключевые слова: машинное обучение, классификатор, задача классификации, ансамблирование.
Keywords: machine learning, classifier, classification task, ensemble methods
Задача классификации текста, частным случаем которой является сентимент-анализ новостных заголовков, только на первый взгляд кажется довольно банальной задачей машинного обучения. Выбор лучшей нейросетевой архитектуры в значительной степени варьируется в зависимости от поставленной исследователями цели, достаточности экспертизы в доменной области, наличия размеченных наборов данных на языке оригинала, качества этой разметки и ряда других факторов, которые могут существенным образом повлиять на итоговый результат.
В рамках проекта по разработке модели, предсказывающей направление тренда и ценовой диапазон акций на российском фондовом рынке, было проанализировано несколько подходов к созданию классификатора новостного сентимента, содержащегося в заголовках текстов финансово-экономического характера, с целью выбрать оптимальное нейросетевое решение. Мы полагаем, что новостной сентимент является одним из значимых признаков, который необходимо учитывать в обучении нейросетевой модели, предсказывающей ценовой тренд акций на фондовом рынке. Для выделения этого признака из новостных заголовков в русскоязычном интернет-пространстве были построены несколько классификаторов сентимента различной архитектуры и уровня сложности. Рассматриваемые классификаторы представляют собой как довольно простые ML-модели с использованием хорошо зарекомендовавших себя техник ансамблирования, реализованных в библиотеке sklearn, так и нейросетевые решения на базе LSTM и трансформерных архитектур (BERT, DestilBERT). Были проанализированы следующие подходы к созданию классификатора:
- Гибридные техники (TF-IDF, использование N-граммов и ансамблирование).
В методе ансамблирования обычно применяют комбинацию нескольких классификаторов. Это делается для того, чтобы улучшить результаты по сравнению с выходными данными, которые дает каждый классификатор по отдельности [1]. Ключевая идея заключается в том, что путем разнообразного объединения ответов можно устранить индивидуальные ошибки, тем самым достигая более высокого общего качества решения в рамках ансамбля.
- LSTM-модели (Long Short-Term Memory):
Данные модели умеют учитывать долгосрочные зависимости, что делает их эффективными для анализа текстовой информации, включая новостные статьи, финансовые отчеты и другие временные данные, которые могут оказывать влияние на рыночные тенденции. Они способны обрабатывать последовательности переменной длины, что может быть преимуществом при анализе текстов различной длины, таких как заголовки новостей или фрагменты социальных медиа. Они также обладают механизмом саморегуляции, что делает их устойчивыми к проблеме затухания градиентов при обучении на длинных последовательностях данных. Благодаря своей способности запоминать и забывать информацию, LSTM модели могут учитывать контекст в последовательностях данных, что позволяет им лучше понимать и анализировать текстовую информацию. Кроме того, они применимы к различным задачам: могут быть использованы как для задач классификации сентимента (позитивный, негативный, нейтральный), так и для задач прогнозирования временных рядов, что делает их универсальным инструментом для анализа сентимента и его влияния на финансовые рынки.
- Трансформеры
Преимуществами моделей-трансформеров являются:
- способность параллельно обрабатывать входные последовательности данных, что ускоряет процесс обучения и предсказания;
- возможность обрабатывать долгосрочные зависимости в данных благодаря механизму внимания (attention mechanism), что позволяет им улавливать длинные временные зависимости в текстовых последовательностях, а также учитывать контекст и взаимосвязь между различными частями текста, что делает их эффективными для анализа сентимента в сложных текстовых данных;
- масштабируемость для обработки больших объемов текстовых данных, что делает их эффективными для анализа сентимента в больших наборах текстов, особенно в контент-анализе;
- адаптивность для различных задач анализа сентимента, включая классификацию текста, извлечение информации и генерацию текста;
Основываясь на нашем опыте разработки текстовых классификаторов для анализа сентимента в новостных заголовках по финансово-экономической тематике в русскоязычном пространстве, можно выделить следующие основные проблемы, которые приходится решать в процессе обучения текстовых классификаторов:
- Использование достаточно сложных предобученных нейросетевых моделей не всегда оказываются эффективней простых ML-решений. Это во многом связано с тем обстоятельством, что подобные модели обучены на текстовых корпусах общего назначения (например, веб-сайтах) и требуют донастройки, которая в итоге может занять гораздо больше времени и ресурсов, чем планировалось разработчиками изначально;
- В задачах классификации текста модели с автокодированием (например, BERT) часто показывают результаты лучше, чем весьма популярные в последнее время предобученные модели с авторегрессией (например, OpenAI GPT-3.5/4), таким образом, от выбора модели зависит, насколько успешно можно в дальнейшем осуществить тонкую настройку параметров модели;
- Предобученные модели (особенно с архитектурой трансформера) хорошо работают с текстами на английском (а также ряде других европейских языков, близких к английскому по своей синтаксической структуре), однако показывают достаточно скромные результаты в анализе текстов на русском языке. Это связано с отсутствием достаточного количества размеченных данных для анализа тональности в рассматриваемой нами доменной области (тексты финансово-экономического характера);
- Необходимость адаптации к специализированному домену, которая может осуществляться как на этапе предварительного обучения, так и дообучения модели, ранее натренированной на текстах общего домена;
- При получении текста на вход, предобученная языковая модель создает последовательность векторов в контекстном представлении. Затем последовательно добавляются один или несколько слоев, специфичных для предметной области, чтобы сгенерировать окончательный вывод для целевой задачи. Выбор архитектуры задачно-специфических слоев зависит от характера задачи, например, в анализе сентимента новостных заголовках важно учитывать также и лингвистическую структуру текста, часто состоящего из одного (незаконченного или вырванного из контекста) предложения;
- Необходимость сжатия модели. Предобученные языковые модели требуют больших затрат на обслуживание. Часто их необходимо сжимать, например, с помощью дистилляции знаний, чтобы соответствовать ограничениям по задержке и объему в реальных приложениях.
С учетом вышеизложенного, а также при условии недостатка размеченных наборов данных, невысокого качества этой разметки или иных ограничений, накладываемых количественным или качественным составом данных, в практической части нашего исследования мы подходим к выбору архитектуры классификатора с точки зрения использования гибридных техник машинного обучения. Техники ансамблирования зачастую показывают результаты сопоставимые с метриками нейросетевых решений. Достоинство гибридного подхода и различных техник ансамблирования неоднократно отмечались в работах как отечественных, так и зарубежных исследователей [1-7]. Недостаточно стабильные результаты модели при работе с обучающими выборками могут, по мнению некоторых исследователей, повысить различие между классификаторами, используемыми для ансамбля [8-9]. Также рассматривается возможность сочетания точных и относительно слабых классифицирующих алгоритмов вычислительных оценок в рамках одного ансамбля, хотя конкретные правила для формирования операций вычисления остаются в большинстве случаев неопределенными [3]. Метод стекинга предполагает также создание ансамбля из нескольких традиционных моделей для улучшения прогнозных способностей через обучение мета-алгоритма [10]. Мета-алгоритм обучается комбинировать предсказания нескольких других моделей с целью улучшения общей производительности. Базовые модели, называемые уровнем 0, сначала обучаются на исходном наборе данных, а затем их предсказания используются как входные данные для мета-алгоритма, который является моделью уровня 1. Этот подход часто используется в ситуациях, когда не ясно, какая технология машинного обучения лучше всего справится с данными, особенно если они содержат «шум» или пропуски, что обычно встречается в прикладных задачах [9, 12]. Таким образом, основная идея стекинга заключается в совместном использовании нескольких отдельных схем для создания более мощного и надежного предсказательного инструмента.
Ансамблевые методы и алгоритмы вычислительных оценок представляют значительный интерес для применения в области бинарной и многоклассовой классификации. Такой подход позволяет успешно справляться даже со сложными типами операций, такими как несбалансированное распределение классов в данных и необходимость эффективной настройки параметров в короткие сроки. Эксперименты выявили высокую эффективность применения методов ансамблирования, что делает использование данной техники целесообразным и перспективным для решения разнообразных задач классификации.
Список литературы:
- Воронцов К.В. Лекции по алгоритмическим композициям [Электронный ресурс]. URL: http://www.machinelearning.ru/wiki/ images/0/0d/Voron-ML-Compositions.pdf (дата обращения: 03.12.2023).
- Boosting the margin: a new explanation for the effectiveness of voting methods / R. E. Schapire, Y. Freund, W. S. Lee, P. Bartlett // Annals of Statistics. 1998, Vol. 26, no. 5, Pp. 1651–1686. http://citeseer.ist.psu.edu/article/schapire98boosting.html.
- Гущин А. Е. Методы ансамблирования обучающихся алгоритмов [Электронный ресурс]. – Режим доступа: http://www.machinelearning.ru/wiki/images/5/56/Guschin2015Stacking.pdf (дата обращения 07.11.2020).
- Синяев И. Ф. Исследование bagging подхода при построении ансамбля моделей для повышения точности классификации / И. Ф. Синяев, О. В. Шестернева // Актуальные проблемы авиации и космонавтики. 2014, Т. 1, № 10, С. 300.
- Zhou Z.-H. Ensemble Methods: Foundations and Algorithms. New York: CRC Press, 2012. 222 p. 23.
- Yu Y., Zhou Z.-H., Ting K.M. Cocktail ensemble for regression // Proc. 7th IEEE International Conference on Data Mining (ICDM). 2007, P. 721–726. doi: 10.1109/ICDM.2007.60
- Zhou Z.-H., Feng J. Deep forest // National Science Review. 2019. V. 6. N 1. P. 74–86. doi: 10.1093/nsr/nwy108
- Pedersen T. A simple approach to building ensembles of naive bayesian classifiers for word sense disambiguation // NAACL 2000: Proc. of the 1st North American chapter of the Association for Computational Linguistics Conference. 2000, P. 63–69.
- Kaftannikov I.L., Parasich A.V. Problems of training set’s formation in machine learning tasks. Bulletin of the South Ural State University. Series Computer Technology, Automatic Control, Radio Electronics, 2016, vol. 16, no. 3, pp. 15–24. doi: 10.14529/ ctcr160302
- Полякова А.С. Коллективные методы принятия решения на основе нечеткой логики, 2019, г. Красноярск.
- Евсеева, С. А. Исследование эффективности мета-алгоритмов, сформированных методом стекинга в задачах классификации / С. А. Евсеева, Д. В. Болдырев, Л. В. Липинский // Решетневские чтения : Материалы XXIV Международной научно-практической конференции, посвященной памяти генерального конструктора ракетно-космических систем академика М. Ф. Решетнева: в 2 частях, Красноярск, 10–13 ноября 2020 года. Том Часть 2. – Красноярск: Федеральное государственное бюджетное образовательное учреждение высшего образования "Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева", 2020, С. 169-171.
- Fomin V., Duke V., Aleksandrov I. The use of machine learning methods for the determination of the fuel consumption of a gas turbine frigate //Marine intellectual technologies. 2019. Vol. 1 (43). PP. 156-160.
дипломов
Оставить комментарий