Статья опубликована в рамках: CXXXVII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 13 мая 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
КОНТРАСТИВНОЕ ОБУЧЕНИЕ НЕЙРОСЕТЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ
THE METHOD OF SELF-SUPERVISED LEARNING FOR NEURAL NETWORKS FOR RECOGNIZING THE EMOTIONAL STATE OF THE SPEAKER
Elza Smirnova
master's student, Department of Automation of Scientific Research, Moscow State University Lomonosov,
Russia, Moscow
Alexey Shishkin
scientific supervisor, dr. phys.-math. sciences, professor, Moscow State University Lomonosov,
Russia, Moscow
АННОТАЦИЯ
В настоящее время задача распознавания эмоций имеет важное значение и широкое применение. На сегодняшний день уже существует огромный массив данных, содержащих человеческие эмоции, но в большинстве своем эти данные не размечены. С целью снижения затрат на трудоемкую ручную маркировку данных был предложен подход с самообучением нейронных сетей. В данной работе представлен контрастивный метод самообучения нейросетей для распознавания эмоций в речи. Разработанная архитектура основана на применении методов аугментации данных, сверточных нейронных сетей и контрастивной функции потерь для последующей классификации. Полученные результаты показали эффективность работы предложенного метода в сравнение с уже существующими алгоритмами.
ABSTRACT
Nowadays the task of emotion recognition is of great importance and wide application. There is already a huge amount of data containing human emotions today, but most of this data is not labeled. In order to reduce the cost of labor-intensive manual data labeling, a self-learning neural network approach was proposed. This paper presents a contrastive method of self-supervised neural networks for speech emotion recognition. The developed architecture is based on the use of data augmentation techniques, convolutional neural networks and contrastive loss function for classification. The results of measuring the efficiency of the proposed method in comparison with existing algorithms were obtained.
Ключевые слова: распознавание эмоций в речи; контрастивное обучение; глубокие нейронные сети.
Keywords: speech emotion recognition; contrastive learning; deep neural networks.
1. Введение
Быстрое развитие технологий открыло новые возможности для понимания и интерпретации человеческих эмоций, в частности, благодаря использованию нейронных сетей. На сегодняшний день задачи, связанные с распознаванием эмоций, имеют важное значение и широкий спектр практических применений в различных областях, например, в здравоохранении для мониторинга эмоционального состояния пациента, в сфере обслуживания для повышения качества обслуживания, в системах безопасности для определения подозрительного поведения.
К настоящему моменту уже существует огромный массив данных, содержащих человеческие эмоции, но не все из них подходят для непосредственного обучения нейронных сетей, в том числе потому, что в большинстве своём эти данные не размечены. Ручная разметка данных специалистами – довольно трудоемкая задача, поэтому в последнее время исследования глубокого обучения были сосредоточены на снижении требований к контролю при обучении моделей. С этой целью был предложен подход с самообучением нейронных сетей. В данной работе представлен контрастивный метод самообучения нейросетей для распознавания эмоций в речи.
2. Набор данных и предварительная обработка
В данной работе использовался набор данных IEMOCAP (Interactive Emotional Dyadic Motion Capture), представляющий собой обширную коллекцию аудио- и видеоданных, предназначенных для изучения распознавания эмоций по речи и выражению лица. Это один из наиболее широко используемых наборов данных в этой области, он особенно ценен благодаря своей полноте с точки зрения количества говорящих и разнообразия представленных эмоций.
IEMOCAP содержит 12 часов аудиовизуальных данных, записанных 10 актерами (5 женщин и 5 мужчин) на английском языке. Всего представлено 5 разговорных сессий как по сценарию, так и по импровизированным темам. Каждая диалоговая сессия делится на небольшие фрагменты – высказывания – продолжительностью до 35 секунд, которые затем маркируются оценщиками. В данной работе рассматриваются четыре класса эмоций из этого набора данных: злость, грусть, нейтральное состояние и радость, объединенная в один класс с возбуждением для сбалансированности классов.
Первый шаг предварительной обработки речевых сигналов из набора данных IEMOCAP – очищение их от шума по всей длительности фрагмента-высказывания с помощью метода, называемого «spectral gating» [1]. Второй шаг – удаление тишины в начале и конце фрагментов-высказываний. Далее полученные аудиосигналы переводятся в изображения, мел-спектрограммы, для последующей их аугментации и подачи в нейронную сеть.
3. Архитектура модели
Была разработана следующая нейросетевая архитектура (рис. 1). На вход модели подаются аугментированные мел-спектрограммы, сгенерированные из предобработанных аудиозаписей набора данных IEMOCAP. Существуют различные методы аугментации данных, в данной работе использовались маскировка блоков частотных каналов и маскировка блоков временных шагов [2, 3].
Сначала обучается первая часть сети – контрастивная, сюда подаются данные без меток, после этого веса в свёрточной части сети замораживаются, вместо проекционной части, состоящей из нескольких полносвязных слоев и используемой для отображения полученных представлений в скрытое пространство, где используется контрастивная функция потерь, в конце добавляется классифицирующий блок, сюда подаются данные с метками, который выдаёт, какая эмоция была на входе.
Рисунок 1. Архитектура разработанной модели
Описанная выше нейросетевая архитектура базируется на модели контрастивного обучения визуальных представлений SimCLR [4], предложенная для решения задач самоконтролируемого обучения (рис. 2).
Рисунок 2. Схема архитектуры SimCLR [4]
SimCLR включает в себя четыре основных компонента:
- Модуль стохастической аугментации данных, который случайным образом преобразует любой поданный на вход пример данных, в результате чего получаются два коррелирующих представления одного и того же примера, обозначенные и , которые мы рассматриваем как положительную пару.
- Базовый кодировщик нейронной сети , который извлекает векторные представления из аугментированных данных. В качестве кодировщика может быть выбрана любая нейросетевая архитектура, в данной работе используется ResNet50.
- Небольшая проекционная головка , которая отображает векторные представления в пространство, где применяется контрастивная функция потерь. В настоящей работе рассмотрены два вида проекционной головки: один линейный слой и нелинейный двухслойный перцептрон, который продемонстрировал лучшее качество, по сравнению с первым вариантом.
- Контрастивная функция потерь, определенная для задачи контрастивного предсказания. Пусть имеется набор , содержащий положительную пару примеров и , тогда цель контрастивного предсказания — идентифицировать в для данного .
4. Результаты
Результаты тестирования обученной нейросетевой модели при различных соотношениях (в %) данных с метками / без меток представлены в таблице 1.
Таблица 1.
Значение f1-score для каждой эмоции при разных соотношениях данных
f1-score |
90/10 |
80/20 |
70/30 |
60/40 |
50/50 |
40/60 |
30/70 |
20/80 |
10/90 |
злость |
0.75 |
0.77 |
0.74 |
0.73 |
0.75 |
0.73 |
0.73 |
0.68 |
0.71 |
радость |
0.56 |
0.61 |
0.62 |
0.61 |
0.59 |
0.61 |
0.59 |
0.57 |
0.53 |
нейтральное |
0.66 |
0.63 |
0.64 |
0.73 |
0.64 |
0.63 |
0.65 |
0.59 |
0.58 |
грусть |
0.71 |
0.74 |
0.70 |
0.73 |
0.74 |
0.70 |
0.71 |
0.71 |
0.60 |
По приведенной таблице с результатами можно сделать вывод, что лучше всего модель распознает такие классы эмоций, как злость и грусть, далее идет нейтральное состояние, и хуже всего модели удается классифицировать радость. При построении матриц ошибок для каждого из рассматриваемых соотношений данных с метками / без меток было замечено, что чаще всего модель путает радость и нейтральное состояние. Также есть несовпадения, когда злость принимается за радость и грусть классифицируется как нейтральное состояние. Это обусловлено тем, что в наборе данных содержатся записи с меткой «радость» как с более яркой выраженностью эмоции, так и с менее, из-за чего в первом случае злость может ошибочно приниматься за радость, а во втором – путаются радость и нейтральное состояние. В случае с грустью, в наборе также присутствуют записи с низкой выраженностью этой эмоции, вследствие чего её можно неверно классифицировать как нейтральное состояние.
На рис. 3 представлен график зависимости итогового качества классификации (macro avg f1-score) от различных соотношений (в %) данных с метками / без меток. По нему можем видеть, что лучший результат, равный 71%, достигается при соотношении данных 60 / 40. Начиная с соотношения 30 / 70 качество классификации падает с 67% до 61%. С 90 / 10 по 30 / 70 оно варьируется от 67% до 71%. Таким образом, проведённое исследование доказывает эффективность применения методов самообучения нейронных сетей в задаче распознавания эмоций диктора при небольшом количестве размеченных данных.
Рисунок 3. macro avg f1-score от соотношения данных с метками/без меток
5. Заключение
Таким образом, в данной работе рассмотрена задача распознавания эмоций диктора с использованием метода самообучения нейросетей. Это было достигнуто путём применения фреймворка контрастивного обучения SimCLR к мел-спектрограммам, сгенерированным из набора аудиоданных IEMOCAP.
Выполнена предварительная обработка данных: шумоподавление по всей длительности сигнала, удаление тишины в начале и конце фрагментов-высказываний, разделение высказываний на сигналы равной длительности с последующим их переводом в мел-спектрограммы.
Разработана и обучена нейросетевая модель с использованием алгоритма SimCLR на базе ResNet50, добавлен блок классификации данных с метками, подобраны оптимальные гиперпараметры с целью улучшения общей производительности.
Выполнено тестирование на изначально выделенной тестовой выборке с различными соотношениями данных с метками / без меток, проанализированы полученные результаты, в том числе в разрезе эффективности распознавания конкретных классов эмоций.
Список литературы:
- Sudheer Kumar E. et al. Noise Reduction in Audio File Using Spectral Gatting and FFT by Python Modules //Recent Developments in Electronics and Communication Systems. – IOS Press, 2023. – С. 510-515.
- Hwang Y. et al. Mel-spectrogram augmentation for sequence to sequence voice conversion //arXiv preprint arXiv:2001.01401. – 2020.
- Park D. S. et al. Specaugment: A simple data augmentation method for automatic speech recognition //arXiv preprint arXiv:1904.08779. – 2019.
- Chen T. et al. A simple framework for contrastive learning of visual representations //International conference on machine learning. – PMLR, 2020. – С. 1597-1607.
дипломов
Оставить комментарий