Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 мая 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Лысенко И.И. РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXV междунар. студ. науч.-практ. конф. № 5(123). URL: https://sibac.info/archive/technic/5(123).pdf (дата обращения: 09.01.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

РАЗРАБОТКА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ ПАТОЛОГИЙ

Лысенко Илья Игоревич

студент, магистрант, кафедра автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московского государственного университета имени М.В. Ломоносова (МГУ),

РФ, Москва

Шишкин Алексей Геннадиевич

научный руководитель,

д-р физ.-мат. наук, проф. кафедры автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московского государственного университета имени М.В. Ломоносова (МГУ),

РФ, Москва

АННОТАЦИЯ

Нарушения голоса препятствуют нормальному взаимодействию между индивидами. Но клинические способы выявления причин голосовых патологий требуют высоких затрат времени, денег и зачастую требуют проведения инвазивных операций. Поэтому чрезвычайно актуальным является разработка программных методов определения голосовых патологий. Однако большинство существующих работ имеет один общий недостаток: они используют весьма небольшие наборы данных с однотипными записями. В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. Рассмотрены различные виды нейросетевых классификаторов, работающих с мел-спектрограммами и мел-частотными кепстральными коэффициентами в качестве входных данных. Лучшая модель показывает результаты 68% полноты и 72% точности в задаче классификации с 26-ю классами.

1 Введение

Голос является естественным инструментом для общения, осуществляемого людьми. Тем не менее, всегда есть барьеры для эффективного голосового общения. Нарушение речи из-за голосовых патологий является одним из них. Согласно недавнему отчету, опубликованному Национальным центром статистики образования, около 20% детей и молодежи в возрастной группе 3-21 года страдают от голосовых патологий.

Чтобы обнаружить патологии голоса, исследователи используют несколько характерных для голоса признаков. Наиболее распространенные: мел-частотные кепстральные коэффициенты, спектрограмма, форманты, коэффициенты вейвлет-разложения, линейное предиктивное кодирование, перцептивное линейное предсказание.

Большинство работ на эту тему имеют один общий недостаток: они используют весьма небольшие наборы данныхс однотипными записями, например долгимигласными и классифицируют небольшое число различных патологий.

В данной работе указанный недостаток устранен с помощью использования большого количества допустимых классов заболеваний и видов аудиозаписей. В качестве базы данных выбрана база данных Advanced Voice Function Assessment Databases (AVFAD) [1], содержащая 8648 различных аудиозаписей, включающих в себя примеры 26 различных патологий и различные примеры голоса: помимо удержания гласных, также чтение предложений и спонтанная речь.

2 Методы

В качестве признаков для классификации в этой работе используются мел-спектрограммы, имитирующие восприятие звука человеческим ухом, и мел-частотные кепстральные коэффициенты, которые являются де-факто стандартом при работе с голосовыми данными, так как позволяют с высокой точностью описать голосовой тракт.

На рисунках 1и 2 приведены примеры спектрограмм для нормального и патологического голоса соответственно

 

Рисунок1 Спектрограмма здорового голоса

 

Рисунок 2 Спектрограмма патологического голоса

 

Для решения задачи используются следующие нейросетевые архитектуры:

  • Сверточная нейронная сеть
  • Сверточная нейронная сеть совместно с рекуррентным слоем
  • Трансформер Vision transformer (ViT) [2]

Используемая сверточная сеть состоит из сверточных блоков, включающих в себя:

  • 2 сверточных слоя с n фильтрами 3х3 и функцией активации RELU
  • Слоя батч-нормализации
  • Слоя субдискретизации MaxPooling с размером ядра 2х2 и шагом 2 для уменьшения размерности изображения в 2 раза
  • Слоя дропаута с вероятностью  для предотвращения переобучения

Пример архитектуры для одной из вариации модели можно видеть на рис.3. В данной сети в качестве оптимизатора использовался Adam.

 

Рисунок 3. Архитектура сети CNN

 

Свёрточно-рекуррентная нейронная сеть (CRNN) практически полностью повторяет архитектуру CNN, за исключением того, что выход последнего свёрточного блока подается не на полносвязный слой, а на рекуррентный слой Long short-term memory (LSTM).

Итоговую архитектуру сети можно видеть на рисунке 4.

 

Рисунок 4. Архитектурасети CRNN

 

В качестве последней архитектуры используется разработанный компанией Google трансформер Vision Transformer* [2]. Данная архитектура включена в исследовательских целях, так как ViT не имеет подобного сверточным сетям индуктивного смещения, в виду того, что только слои многослойных перцептронов являются локальными и трансляционно-эквивариантными, тогда как слои само-внимания являются глобальными. Cтруктура двумерной решетки используется очень ограниченно. Кроме этого, позиционные эмбеддинги во время инициализации не несут никакой информации о пространственных положениях фрагментов, и все пространственные отношения между фрагментами должны быть изучены сетью с нуля.

Вследствие этого требуются датасеты больших размеров для получения робастных результатов.

3 Эксперименты

Данные в базе изначально хранятся в виде .wav файлов с частотой дискретизации 48кГц и глубиной 128 бит.

В таком формате данные занимают в ОЗУ компьютера слишком много места. Также в рамках задачи не требуется иметь настолько высокое разрешение, поэтому для всех записей частота дискретизации была понижена до 16кГц с глубиной 16 бит.

  • Далее обработка происходила по следующему плану:
  • все аудиозаписи делятся на сегменты длиной 1 секунду
  • Каждая секунда разбивается на окна длиной 100мс или 160 отсчетов с перекрытием 50мс
  • К каждому окну применяется оконная функция Хэмминга
  • В зависимости от выбранных признаков вычисляется мел-спектрограмма или мел-частотные кепстральные коэффициенты

Далее полученные данные разбиваются на обучающее, тестовое и валидационное множества и подаются на вход классификаторам

3.1 CNN

Для архитектуры CNN были проведено несколько экспериментов, в которых менялись гиперпараметры, такие как величина дропаута, количество фильтров, размеры выходных полносвязных слоев.

Название модели формируется следующим образом, каждая часть отделенная нижним подчеркиванием означает определенный блок – буква вид блока, число - параметр: «с»xx – сверточный блок с xx фильтрами, «d»yy полносвязный слой с y нейронов, «r»zz–слой lstm c zz нейронами, dr – уровень дропаута между блоками.

Таблица 1

Результаты для различных архитектур CNN

Модель

MFCC Полнота/Точность (%)

Спектрограмма Полнота/Точность (%)

c32_c64_c128_d1024_d128_dr0.3

63/65

60/68

c32_c64_c128_d1024_d128_dr0.5

54/70

61/65

c32_c64_c128_d512_d128_dr0.3

48/67

60/67

c32_c64_c128_d512_d64_dr0.3

35/78

60/66

 

В табл. 1 приведены результаты тестирования различных моделей.

В табл. 2 приведены результаты для различных вариаций архитектур CRNN

Таблица 2

Результаты для различных архитектур CRNN

Модель

MFCC Полнота/Точность (%)

Спектрограмма Полнота/Точность(%)

c32_c64_c128_r128_d128_d28_dr0.3

74/76

58/71

c32_c64_c128_r128_d28_d128_dr0.6

71/72

60/70

c32_c64_c128_r64_d128_d28_dr0.3

68/72

61/70

c32_c64_c128_r64_d64_d28_dr0.3

63/71

60/69

 

В таб. 3 приведены результаты для сети трансформер.

Таблица 3.

Результаты для различных архитектур ViT

Модель

MFCC Полнота/Точность (%)

Спектрограмма Полнота (%)

D = 48, N = 4

48/58

42/51

D = 32, N = 4

52/64

42/53

 

Результаты для данной архитектуры значительно уступают сетям CNN и CRNN, что объясняется недостаточным размером обучающего множества ввиду слабого индуктивного смещения трансформеров.

Как следует из полученных результатов, мел-спектрограмма в качестве входных данных показывает более низкую эффективность по сравнению с мел-частотными кепстральными коэффициентами. Это может быть объяснено тем, что несмотря на большую размерность, она значительно хуже описывает структуру голосового тракта в отличие от кепстральных коэффициентов.

Итоговое сравнение среди лучших экземпляров для каждой архитектуры можно видеть в табл. 4.

Таблица 4.

Сравнение результатов экземпляров лучших моделей каждого класса

Модель

Полнота (%)

Точность (%)

CNN + MFCC

63

65

CRNN + MFCC

74

76

ViT + MFCC

52

64

 

На рисунках 5-7 можно видеть графики обучения для модели, показавшей наилучшую эффективность c32_c64_c128_r128_d128_d28_dr0.3.

 

Рисунок 5. Зависимость ошибки обучения от номера эпохи для CRNN

 

Рисунок 6. Зависимость полноты от номера эпохи для CRNN

 

Рисунок 7. Зависимость точности от номера эпохи для CRNN

 

4. Выводы

В данной работе была рассмотрена задача определения голосовых патологий по речевому сигналу с помощью нейронных сетей. Для этого было рассмотрено несколько моделей, использующих различные архитектуры, такие как:

  • Сверточная нейронная сеть
  • Сверточно-рекуррентная нейронная сеть
  • VisionTransformer

и характерные признаки:

  • Мел-спектрограмма
  • Мел-частотные кепстральные коэффициенты

В качестве набора данных использовался AVFAD, содержащий примеры 26 голосовых патологий. Выполнена предварительная обработка речевых сигналов.

После проведения большого числа экспериментов по определению оптимальных гиперпараметров самая высокая эффективность была получена с помощью сверточно-рекуррентной нейронной сети с мел-частотными кепстральными коэффициентамив качестве характерных признаков. Точность и полнота данной модели составил 68% и 72% соответственно. Таким образом, систему многоклассовой классификации с 28 различными классами можно охарактеризовать как эффективную.

 

*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред.).

 

Список литературы:

  1. L. M. T. Jesus, I. Belo, J. Machado, and A. Hall, ‘The Advanced Voice Function Assessment Databases (AVFAD): Tools for Voice Clinicians and Speech Research’, Advances in Speech-language Pathology. InTech, Sep. 13, 2017. doi: 10.5772/intechopen.69643.
  2. Alexey Dosovitskiy , Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, XiaohuaZhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby, “An image is worth 16 x16 words: transformers for image recognition at scale” Google Research*, Brain Team
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

Оставить комментарий