Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XIX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 15 апреля 2014 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Коробейников М.А., Мокроусов М.Н. ЯЗЫКОВОЕ МОДЕЛИРОВАНИЕ НА ОСНОВЕ МОРФОВ ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XIX междунар. студ. науч.-практ. конф. № 4(19). URL: https://sibac.info/archive/technic/4(19).pdf (дата обращения: 22.11.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ЯЗЫКОВОЕ  МОДЕЛИРОВАНИЕ  НА  ОСНОВЕ  МОРФОВ  ДЛЯ  СИСТЕМ  РАСПОЗНАВАНИЯ  РУССКОЙ  РЕЧИ

Коробейников  Максим  Анатольевич

магистрант  2  курса,  кафедра  АСОИУ  ИжГТУ,  РФ,  г.  Ижевск

E-mail: 

Мокроусов  Максим  Николаевич

канд.  техн.  наук,  доцент  ИжГТУ,  РФ,  г.  Ижевск

 

Постоянно  растущие  возможности  вычислительных  техники  и  сетевых  технологий  уже  сейчас  не  используются  в  полной  мере  из-за  отсутствия  полноценного  взаимодействия  человека  и  компьютера  на  естественном  языке.  Значимым  направлением  в  решении  этой  проблемы  является  автоматическое  распознавание  слитной  речи.

Распознавание  слитной  речи   —  это  процесс  преобразования  естественно  произнесенных  предложений  в  текст.  Такое  распознавание  сложно  тем,  что  границы  отдельных  слов  не  четко  определены  и  их  произношение  сильно  искажено  «смазыванием»  произносимых  звуков.

Кроме  того,  русская  речь  трудна  для  распознавания  вследствие  своей  флективности:  из-за  наличия  большого  числа  словоформ  каждой  парадигмы  слова  объем  словаря  распознавания  и  число  существующих  внесловарных  слов  возрастают  на  порядок  по  сравнению  с  аналитическими  языками  [2].  Более  того,  словарь  огромных  размеров  может  привести  к  путанице  в  определении  акустически  подобных  слов,  и  потребуется  огромное  количество  текстовых  данных  для  надежной  оценки  модели  языка,  а  для  русского  языка  нет  статистически  или  эвристически  представительной  выборки  текстов  для  построения  такой  языковой  модели.

В  данной  работе  рассматривается  возможность  разложения  базовых  элементов  языковой  модели  (самостоятельных  слов)  на  составляющие  их  значимые  единицы  с  точки  зрения  распознавания  речи  (т.н.  подслова).  Эти  единицы  используются  в  качестве  элементов  словаря  для  n-граммной  модели  [1]  (рисунок  1).  Сегментация  слов  основана  на  выделении  в  тексте  морфемноподобных  единиц  (статистических  морфов),  из  которых  состоят  слова,  по  принципу  MDL  (Minimum  Description  Length)  [5].  Таким  образом,  можно  модифицировать  исходный  текстовый  корпус  (рисунок  2)  и  на  его  основе  построить  языковую  модель  [3],  где  каждым  элементом  n-граммы  будет  не  явное  слово,  а  его  составная  единица  —  морф.  После  того,  как  набор  морфов  (модель  сегментации  —  МС)  получен  из  некоторого  набора  текстовых  данных,  он  может  быть  использован  для  сегментации  новых  словоформ  в  другом  произвольном  тексте.  В  этом  случае  для  того,  чтобы  убедиться,  что  всегда  есть,  по  крайней  мере,  один  из  возможных  вариантов  сегментаций,  каждый  отдельный  символ  в  слове,  не  существующий  как  морф  в  текущей  МС,  может  быть  предложен  в  качестве  морфа  с  очень  низкой  вероятностью.

 

Рисунок  1.  Схема  распознавания.  АМ  —  акустическая  модель,  ЯМ  —  языковая  модель

 

В  дальнейшем  при  оценке  надежности  разных  языковых  моделей  для  избегания  разночтений,  будем  использовать  термин  «слово»  для  обозначения  базовых  элементов  языковой  модели  и  словарей  распознавания.

 

Описание: C:\Users\Маккай\Desktop\Рисунок1.png

Рисунок  2.  Сегментирование  текстового  корпуса

 

Для  оценки  результатов  было  создано  2  языковые  модели  (классическая  n-граммная  модель  и  модель  на  основе  морфов)  из  текстового  корпуса,  представленного  987  тыс.  слов.  Языковые  модели  были  преобразованы  в  формат,  пригодный  для  движка  распознавания  PocketSphinx  [3].  Для  удобства  тестирования  моделей  и  оценке  надежности  распознавания  была  разработана  программная  среда-оболочка,  позволяющая  получать  как  аналитические,  так  и  практические  (непосредственное  распознавание  с  микрофона  или  из  файла)  результаты  (рисунки  3,  4). 

 

Рисунок  3.  Интерфейс  среды  распознавания.  Процесс  распознвания.

 

Рисунок  4.  Интерфейс  среды  распознавания.  Выпадающие  меню

 

При  сравнении  словарей  распознавания  учитывались  их  размер  (количество  составляющих  текст  уникальных  слов)  и  процент  слов,  встречающихся  2  или  более  раза,  от  всех  слов  словаря  (таблица  1).

Таблица  1. 

Показатели  словарей  распознавания  моделей

 

Классическая  модель

Модель  на  основе  морфов

Размер  словаря

~104  тыс.

~40  тыс.

Количество  (%)  слов,  встречающихся  не  менее  2  раз

~51  тыс.  (49  %)

~37  тыс.  (92  %)

Количество  (%)  слов,  встречающихся  не  менее  3  раз

~33  тыс.  (32  %)

~32  тыс.  (80  %)

Количество  (%)  слов,  встречающихся  не  менее  4  раз

~25  тыс.  (24  %)

~28  тыс.  (70  %)

 

Таким  образом,  модель  на  основе  морфов  позволила  сократить  размер  словаря  на  60  %.  Кроме  того,  для  классической  модели  характерно  распределение  слов  согласно  закону  Ципфа:  лишь  малое  число  слов  в  языке  используется  чаще  всего,  а  большее  число  слов  используется  крайне  редко.  Однако  для  модели  на  основе  морфов  удалось  повысить  охват  текста,  что  видно  из  данных  таблицы.  Для  текста  почти  в  1  млн.  слов  понадобился  словарь  в  100  тыс.  слов,  а  для  модели  с  морфами  в  качестве  слов  понадобилось  только  40  тыс. 

Для  оценки  надежности  был  использован  коэффициент  показателя  связности  (ПС)  с  помощью  инструментария  CMUclmtk  [4].  Заметим,  что  при  фиксированном  языке  ПС  позволяет  сравнивать  различные  языковые  модели,  а  при  фиксированном  типе  модели  —  оценивать  сложность  самих  естественных  языков,  и  как  следствие,  часто  применяется  для  конкретной  системы  распознавания.

Для  расчета  ПС  также  необходим  и  представительный  корпус  текста.  В  качестве  такового  использовался  текст  книги  «Роза  Мира»  Д.  Андреева.  Для  оценки  модели  на  основе  морфов  «Роза  мира»  была  предварительно  обработана  алгоритмом  сегментации  слов  по  морфам  созданной  МС.  Результата  проверки  ПС  для  обеих  моделей  представлены  в  таблице  2.

Таблица  2. 

Показатели  связности  моделей  по  отношении  к  тексту  книги

 

Классическая  модель

Модель  на  основе  морфов

Всего  слов  в  тексте

~425  тыс.

~1220  тыс.

ПС

234,47

135,12

Количество  внесловарных  слов

~115  тыс.  (27,13%)

~184  тыс.  (15,11  %)

Количество  (%)  совпадения  3-грамм

~227  тыс.  (53,56  %)

~902  тыс.  (73,97  %)

Количество  (%)  совпадения  2-грамм

~52  тыс.  (12,41  %)

~219  тыс.  (17,98  %)

Количество  (%)  совпадения  1-грамм

~13  тыс.  (3,05  %)

~24  тыс.  (1,94  %)

 

Данные  ПС  отражают  в  частности,  что  почти  1/3  слов  эталонного  текста  не  представлена  в  классической  языковой  модели.  Модель  на  основе  морфов  содержит  чуть  меньше  1/6  внесловарных  слов. 

Единственный  показатель,  по  которому  классическая  модель  опередила  морфемноподобную  —  количество  совпавших  1-грамм.  Объяснение  этому  видится  в  следующем:  совпадение  1-грамм  в  данном  контексте  означает  совпадение  предложений,  состоящих  из  одного  слова.  Следовательно,  для  модели  на  основе  морфов  многие  предложения  из  одного  слова,  например  «Сверкалось»,  разделялись  на  морфы  («Сверка  лось»),  и  уже  рассматривались  как  минимум  биграммами,  т.  е.  состоящими  по  крайней  мере  из  двух  «слов».

Таким  образом,  разложение  базовых  элементов  языковой  модели  на  статистические  морфы  дает  лучшую  надежность  распознавания  и  требует  меньших  затрат  ресурсов  по  сравнению  с  грамматическим  способом  разложения.  Такой  подход  пригоден  для  создания  приемлемых  тематических  языковых  моделей  (для  распознавания  спонтанной  речи  из  определённой  предметной  области),  уменьшая  необходимый  репрезентативный  объем  базы  текстового  корпуса.  При  этом  используются  преимущества  современных  статистических  методов  распознавания,  в  частности,  скрытые  марковские  модели,  что  позволяет  провести  моделирование  пригодной  для  реальной  эксплуатации  системы  распознавания. 

 

Список  литературы:

1.Реализация  конструирования  N-грамм  и  генерации  псевдо  ЕЯ-текста  на  их  основе  на  языке  Haskell  //  Habrahabr  :  [cайт].  [2013].  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://habrahabr.ru/post/135127/  (дата  обращения  23.06.13).

2.Холоденко  А.Б.  О  построении  статистических  языковых  моделей  для  систем  распознавания  русской  речи  [Электронный  ресурс]  //  Официальный  сайт  кафедры  Математической  теории  интеллектуальных  систем  механико-математического  факультета  МГУ  :  [cайт].  [2013].  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://www.intsys.msu.ru/invest/speech/articles/rus_lm.htm  (дата  обращения  13.02.13).

3.Building  Language  Model  (указания  к  построению  статистических  языковых  моделей)  //  Open  Source  Toolkit  For  Speech  Recognition  :  [cайт].  [2013].  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  cmusphinx.sourceforge.net/wiki/tutoriallm  (дата  обращения  23.05.13).

4.Documentation  for  the  CMU  Sphinx  speech  recognition  engines  :  [cайт].  [2013].  [Электронный  ресурс]  —  Режим  доступа.  —  URL:  http://cmusphinx.sourceforge.net/wiki/   (даты  обращения  15.11.12,  9.06.13).

5.Mathias  Creutz  and  Krista  Lagus.  Unsupervised  Morpheme  Segmentation  and  Morphology  Induction  from  Text  Corpora  Using  Morfessor.  Publications  in  Computer  and  Information  Science,  Report  A81,  Helsinki  University  of  Technology,  2005.

 

Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.