Статья опубликована в рамках: XCVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 10 декабря 2020 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
СРАВНЕНИЕ АЛГОРИТМОВ КЛАССИФИКАЦИИ В ЗАДАЧЕ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ
АННОТАЦИЯ
В данной статье приведено сравнение различных алгоритмов классификации в задаче анализа тональности отзывов.
Ключевые слова: анализ тональности; машинное обучение; нейронные сети.
Введение
Анализ тональности – определение общего отношения группы (положительного или отрицательного) к услуге, продукту, организации или теме [1]. Анализ тональности является частным случаем более общей задачи классификации.
В данной статье рассматривается задача анализа тональности отзывов на IMDb [2]. Датасет включает в себя 50000 отзывов по 25000 для тренировочной и тестовой выборки. Классы отзывов (положительные и отрицательные) сбалансированы в обоих выборках.
Метрикой качества классификации в данной задаче является accuracy (точность).
Для сравнения было выбрано несколько алгоритмов: градиентный бустинг (реализация LGBM [3]), многослойный персептрон (MLP), одномерная свёрточная нейронная сеть (CNN), двунаправленная рекуррентная нейронная сеть (RNN), классификатор на основе BERT [4].
Для всех алгоритмов сравнивалось качество классификации при использовании предобработки текстов и без неё. Предобработка содержала в себе: приведение слов к нижнему регистру, удаление стоп-слов и знаков пунктуации, лемматизация слов, удаление редких слов (слов, встречающихся в тренировочной выборке меньше 40 раз).
Сравнение качества классификации моделей LGBM и MLP
В качестве модели LGBM использовалось 1000 деревьев максимальной глубины 3. В качестве MLP использовался трехслойных персептрон с 512 нейронами в скрытых слоях.
Для моделей LGBM и MLP текстовые данные преобразовывались в вектора с использованием алгоритмов word2vec (w2v) или doc2vec (d2v). Для алгоритма word2vec в качестве вектора текста бралось среднее арифметическое всех векторов слов в тексте, причём рассматривалось два варианта использования этого алгоритма: обучение модели на словах тренировочного набора и использование, предобученной на датасете google news, модели.
Сравнение качества классификации для моделей LGBM и MLP показано в таблице 1. Качество при использовании предобученной модели word2vec выше, чем при использовании модели, обученной на тренировочном наборе.
Таблица 1
Качество классификации для LGBM и MLP
Алгоритм классификации |
с предобработкой |
без предобработки |
||
log loss |
accuracy |
log loss |
accuracy |
|
LGBM + w2v |
0.3300 |
0.8554 |
0.3537 |
0.8445 |
MLP + w2v |
0.3128 |
0.8670 |
0.3356 |
0.8540 |
Алгоритм классификации |
с предобработкой |
без предобработки |
||
log loss |
accuracy |
log loss |
accuracy |
|
LGBM + d2v |
0.3460 |
0.8518 |
0.3295 |
0.8568 |
MLP + d2v |
0.3122 |
0.8658 |
0.2951 |
0.8762 |
LGBM + w2v (google) |
0.3570 |
0.8436 |
0.3513 |
0.8469 |
MLP + w2v (google) |
0.3443 |
0.8492 |
0.3385 |
0.8540 |
Анализ результатов проведенного сравнения позволяет сделать следующие выводы:
- наилучшее качество было достигнуто для модели MLP при использовании алгоритма doc2vec,
- наилучшее качество было достигнуто без использования предобработки текста,
Сравнение качества классификации моделей CNN и RNN
Рассматривались различные варианты инициализации слоя embedding для CNN и RNN:
- случайными значениями,
- векторами модели word2vec, обученной на исходном датасете,
- векторами модели word2vec, обученной на датасете google news.
Архитектура моделей CNN и RNN показана на рисунке 1.
Сравнение качества классификации для моделей RNN и CNN показано в таблице 2.
Таблица 2.
Качество классификации для CNN и RNN
Алгоритм классификации |
с предобработкой |
без предобработки |
||
log loss |
accuracy |
log loss |
accuracy |
|
CNN |
0.2791 |
0.8863 |
0.2575 |
0.8939 |
RNN |
0.3002 |
0.8737 |
0.3225 |
0.8676 |
CNN + w2v |
0.3105 |
0.8669 |
0.3358 |
0.8535 |
RNN + w2v |
0.2972 |
0.8780 |
0.3196 |
0.8676 |
CNN + w2v (google) |
0.2714 |
0.8875 |
0.2551 |
0.8950 |
RNN + w2v (google) |
0.2948 |
0.8782 |
0.2911 |
0.8802 |
Анализ результатов проведенного сравнения позволяет сделать следующие выводы:
- наилучшее качество было достигнуто для модели CNN при использовании векторов, обученных на датасете google news,
- наилучшее качество было достигнуто без использования предобработки текста,
- качество при использовании предобученной модели word2vec выше, чем при использовании других способов.
Рисунок 1. Архитектура моделей CNN и RNN
Сравнение качество классификации для алгоритма BERT
BERT [4] – является алгоритмом, построенном без использования свёрточных или рекуррентных слоёв, и использующим архитектуру трансформер [5]. В данной задаче использовалась базовая модель BERT, содержащая примерно 110 миллионов обучаемых параметров.
Качество классификации для модели BERT показано в таблице 2, из которой видно, что наилучшее качество было достигнуто без использования предобработки текста.
Таблица 2.
Качество классификации для модели BERT
Алгоритм классификации |
с предобработкой |
без предобработки |
||
log loss |
accuracy |
log loss |
accuracy |
|
BERT |
0.2173 |
0.9121 |
0.1653 |
0.9382 |
Заключение
Наилучшее качество классификации было достигнуто при использовании алгоритма BERT и составило почти 94%. Лучшее качество во всех случаях (сравнение LGBM и MLP, СNN и RNN, BERT) достигалось без использования предобработки текста. При использовании модели word2vec, обученной на датасете google news, достигается лучшее качество классификации, чем при использовании модели word2vec, обученной на исходном датасете.
Cписок литературы:
- Machine Learning Glossary. – URL: https://developers.google.com/machine-learning/glossary (дата обращения 07.11.2020).
- Internet Movie Database. – URL: https://www.imdb.com/ (дата обращения 07.11.2020).
- LightGBM’s documentation. – URL: https://lightgbm.readthedocs.io/en/latest/ (дата обращения 07.11.2020).
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. – URL: https://arxiv.org/pdf/1810.04805.pdf (дата обращения 07.11.2020).
- Attention Is All You Need. – URL: https://arxiv.org/pdf/1706.03762v5.pdf (дата обращения 07.11.2020).
Оставить комментарий