Статья опубликована в рамках: VI Международной научно-практической конференции «Физико-математические науки и информационные технологии: проблемы и тенденции развития» (Россия, г. Новосибирск, 25 сентября 2012 г.)
Наука: Информационные технологии
Секция: Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС
Феррейра Опасо Елена Владимировна
аспирантка ВолгГТУ, г. Волгоград
E-mail: lenulchik8@mail.ru
Методы и средства взаимодействия пользователя с операционной системой и прикладными программами называют пользовательским интерфейсом [3, c. 49]. Развитие программных средств идет по пути увеличения дружественности интерфейса, то есть такого упрощения управления ими, что от пользователя не требуется специальной подготовки, а система создает максимально комфортные условия для его работы. Основной ориентир в совершенствовании вычислительных систем — превращение их в удобного партнера конечного пользователя при решении задач в ходе его профессиональной деятельности.
Для обеспечения наибольшей дружественности интерфейса необходим не только более удобный и наглядный доступ к информации, но и интерактивный, то есть диалоговый характер взаимодействия человека с компьютерной информационной системой [6, с. 10]. Под диалогом в данном случае будем понимать регламентированный обмен информацией между человеком и компьютером, осуществляемый в реальном масштабе времени и направленный на совместное решение конкретной задачи. Каждый диалог состоит из отдельных процессов ввода/вывода, которые физически обеспечивают интерактивную связь пользователя и компьютера.
Для решения практических задач структура диалога включает различные возможные способы обмена информацией между пользователем и компьютером, то есть диалоговая система содержит множество запросов и соответствующих им ответных сообщений. Естественный язык — это тип диалога, при котором запрос и ответ со стороны пользователя ведется на языке, близком к естественному. Пользователь свободно формулирует задачу, но с набором установленных программной средой слов, фраз и синтаксиса языка. Система может уточнять формулировку пользователя.
Разновидностью интерактивного естественного диалога является речевое общение с компьютерной системой. В этом случае человеческий голос может преобразовываться, например, в текст, использоваться для интерактивного управления системой или для идентификации личности. В основе данных процессов лежит технология распознавания речи.
Общий принцип распознавания речи можно представить с помощью структурной схемы, приведенной на рисунке 1 [6, c. 163].
Рисунок 1. Структура технологии распознавания речи
На рисунке 1 показано, что при произнесении слов человек генерирует звуки (фонемы), которые несут информацию о тех символах, с помощью которых эти слова могут быть записаны в виде текста. Заблаговременно формируется база фонем языка, содержащая шаблоны базового набора слов при «усредненной» речи, то есть независящей от диктора. Речь переводится в фонемное описание и поступает в файл описания фонем, откуда это описание поступает в блок распознавания, проводящий сравнение поступившей информации с той, которая хранится в базе. Формируются распознанные слова, которые образуют текстовый файл или команду [6, c. 163—164].
По характеру распознаваемой речи системы речевого ввода разделяются на:
1. системы, ориентированные на распознавание слов, команд и вопросов;
2. системы распознавания предложений и слитной речи;
3. системы идентификации по образцу речи [4, c. 280].
Системы распознавания слов, команд и вопросов обеспечивают выполнение компьютерной системой действий, задаваемых голосом. К системам данного типа относятся:
1. системы распознавания чисел, которые являются средствами распознавания первого поколения (созданная в 1952 году, первая система распознавания речи — система Audrey от Bell Laboratories работала только с числами [2]);
2. системы распознавания отдельных слов — основаны на использовании ключевых слов, хранимых в базе данных системы (например, система Voice Writer от Curzvail или система компании Charles Schwab & Co, распознающие около десяти тысяч слов английского языка [4, c. 280]);
3. системы, строящие диалог с помощью системы голосовых меню (например, Natural Dialogue System от Philips) [4, c. 281]; в настоящее время широко используются IVR-системы (Interactive Voice Response) с технологией распознавания речи ASR (Automatic Speech Recognition) и синтеза речи TTS (Text to Speech) — интерактивные телефонные информационно-справочные системы, необходимые для автоматизации обработки запросов клиентов.
Системы распознавания предложений и слитной речи делятся на:
1. системы раздельной диктовки — требуют произнесения слов с короткой паузой перед каждым следующим словом (ViaType от IBM, Dragon Dictate от Dragon System) Перечисленные системы позволяют также непосредственно диктовать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator. Активный словарь таких систем насчитывает десятки тысяч слов и может пополняться пользователем по его профессиональной тематике.
2. системы распознавания слитной речи (Naturally Speaking от Dragon System, Via Voice от IBM, WildFire от Wildfire Communication, Voice Xpress от Lernout & Hauspie Speech Products) [4, c. 281].
Выделим основные характеристики современных систем автоматического распознавания речи:
1. распознавание слитной речи;
2. словари размером в сотни тысяч слов;
3. возможность работы в голосовом режиме с множеством приложений;
4. работа в реальном времени;
5. работа как с предварительной настройкой на особенности голоса диктора, так и без настройки;
6. точность распознавания речи до 98—99 %.
Данным характеристикам отвечают следующие современные коммерческие программные продукты:
1. Dragon Dictate и Dragon Naturally Speaking от Dragon Systems;
2. Voice Type Dictation и Via Voice от IBM;
3. Voice Xpress Professional от Lernout & Hauspie Speech Products;
4. Listen for Windows от Verbex Voice Systems;
5. Intelligent Voice Recognition System от ComunX и многие другие.
Последние версии программных продуктов Dragon Naturally Speaking v.11 Premium, а также ViaVoice for Windows v.10.0 Pro USB Edition считаются лучшими на сегодняшний день программами распознавания непрерывной речи. Данные программы могут работать в командном режиме и в режиме диктовки текста. Командный режим позволяет запускать при помощи голоса приложения Windows, управлять работой этих приложений, то есть работать с меню, диалоговыми окнами, инструментальными панелями и другими элементами пользовательского интерфейса, а также форматировать текст, введенный в режиме диктовки [5]. Кроме того, программы позволяют отправлять почту, мгновенные сообщения и осуществлять поиск по интернету и компьютеру голосом.
Системы идентификации по образцу речи относятся к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев и рисунок радужной оболочки глаз. Речь характеризуется множеством постоянных физических параметров. Цель идентификации по образцу речи — установить тождественность конкретного известного системе пользователя [4, c. 282].
Взаимодействие пользователя с системой идентификации состоит из трех этапов:
· регистрация пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;
· тестирование, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя;
· допуска к работе в системе, если тестирование прошло успешно [4, c. 283].
Таким образом, технология распознавания речи позволяет использовать естественный для человека голосовой интерфейс, который является более удобным. В связи с этим, системы автоматического распознавания речи находят широкое применение в различных областях жизнедеятельности человека и открывают новые возможности интерактивного естественного взаимодействия человека и компьютера.
Список литературы:
1.Голосовой пользовательский интерфейс: научная фантастика или реальность? [Электронный ресурс] // Речевые технологии: сайт. Аналитическая статья. — Режим доступа: http://www.speetech.by/press/11 (дата обращения: 1.09.2012).
2.История систем распознавания речи. [Электронный ресурс]. — Режим доступа: URL: http://antonkozlov.ru/istoriya/istoriya-sistem-raspoznavaniya-rechi.html (дата обращения 30.08.2012).
3.Симонович, С.В. Информатика для юристов и экономистов: Учебник для вузов / С.В. Симонович. СПб.: Питер, 2002. — 688 с.
4.Федотова, Е.Л. Информационные технологии и системы: учеб. пособие / Е.Л. Федотова. М.: ИНФРА-М, 2009. — 352 с.
5.Фролов, А.В. Синтез и распознавание речи. Современные решения / А.В. Фролов, Г.В. Фролов [Электронный ресурс]. — Режим доступа: http://www.frolov-lib.ru/books/hi/ch06.html (дата обращения: 29.08.2012).
6.Черников, Б.В. Информационные технологии управления: учебник / Б.В Черников. М.: ИНФРА-М, 2008. — 352 с.
дипломов
Оставить комментарий