ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС

Статья опубликована в рамках: VI Международной научно-практической конференции «Физико-математические науки и информационные технологии: проблемы и тенденции развития» (Россия, г. Новосибирск, 25 сентября 2012 г.)

Наука: Информационные технологии

Секция: Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Феррейра О.Е. ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС // Физико-математические науки и информационные технологии: проблемы и тенденции развития: сб. ст. по матер. VI междунар. науч.-практ. конф. – Новосибирск: СибАК, 2012.

Условия публикаций
Все статьи конференции

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Статья опубликована в рамках:

Международной заочной научно-практической конференции «Актуальное состояние и тенденции развития физико-математических наук и информационных технологий» (Россия, г. Новосибирск, 25 сентября 2012 г.)

Выходные данные сборника:

«Актуальное состояние и тенденции развития физико-математических наук и информационных технологий»:материалы международной заочной научно-практической конференции. (25 сентября 2012 г.)

ИНТЕРАКТИВНЫЙ ГОЛОСОВОЙ ИНТЕРФЕЙС

Феррейра Опасо Елена Владимировна

аспирантка ВолгГТУ, г. Волгоград

E-mail: lenulchik8@mail.ru

Методы и средства взаимодействия пользователя с операционной системой и прикладными программами называют пользовательским интерфейсом [3, c. 49]. Развитие программных средств идет по пути увеличения дружественности интерфейса, то есть такого упрощения управления ими, что от пользователя не требуется специальной подготовки, а система создает максимально комфортные условия для его работы. Основной ориентир в совершенствовании вычислительных систем — превращение их в удобного партнера конечного пользователя при решении задач в ходе его профессиональной деятельности.

Для обеспечения наибольшей дружественности интерфейса необходим не только более удобный и наглядный доступ к информации, но и интерактивный, то есть диалоговый характер взаимодействия человека с компьютерной информационной системой [6, с. 10]. Под диалогом в данном случае будем понимать регламентированный обмен информацией между человеком и компьютером, осуществляемый в реальном масштабе времени и направленный на совместное решение конкретной задачи. Каждый диалог состоит из отдельных процессов ввода/вывода, которые физически обеспечивают интерактивную связь пользователя и компьютера.

Для решения практических задач структура диалога включает различные возможные способы обмена информацией между пользователем и компьютером, то есть диалоговая система содержит множество запросов и соответствующих им ответных сообщений. Естественный язык — это тип диалога, при котором запрос и ответ со стороны пользователя ведется на языке, близком к естественному. Пользователь свободно формулирует задачу, но с набором установленных программной средой слов, фраз и синтаксиса языка. Система может уточнять формулировку пользователя.

Разновидностью интерактивного естественного диалога является речевое общение с компьютерной системой. В этом случае человеческий голос может преобразовываться, например, в текст, использоваться для интерактивного управления системой или для идентификации личности. В основе данных процессов лежит технология распознавания речи.

Общий принцип распознавания речи можно представить с помощью структурной схемы, приведенной на рисунке 1 [6, c. 163].

Рисунок 1. Структура технологии распознавания речи

На рисунке 1 показано, что при произнесении слов человек генерирует звуки (фонемы), которые несут информацию о тех символах, с помощью которых эти слова могут быть записаны в виде текста. Заблаговременно формируется база фонем языка, содержащая шаблоны базового набора слов при «усредненной» речи, то есть независящей от диктора. Речь переводится в фонемное описание и поступает в файл описания фонем, откуда это описание поступает в блок распознавания, проводящий сравнение поступившей информации с той, которая хранится в базе. Формируются распознанные слова, которые образуют текстовый файл или команду [6, c. 163—164].

По характеру распознаваемой речи системы речевого ввода разделяются на:

1. системы, ориентированные на распознавание слов, команд и вопросов;

2. системы распознавания предложений и слитной речи;

3. системы идентификации по образцу речи [4, c. 280].

Системы распознавания слов, команд и вопросов обеспечивают выполнение компьютерной системой действий, задаваемых голосом. К системам данного типа относятся:

1. системы распознавания чисел, которые являются средствами распознавания первого поколения (созданная в 1952 году, первая система распознавания речи — система Audrey от Bell Laboratories работала только с числами [2]);

2. системы распознавания отдельных слов — основаны на использовании ключевых слов, хранимых в базе данных системы (например, система Voice Writer от Curzvail или система компании Charles Schwab & Co, распознающие около десяти тысяч слов английского языка [4, c. 280]);

3. системы, строящие диалог с помощью системы голосовых меню (например, Natural Dialogue System от Philips) [4, c. 281]; в настоящее время широко используются IVR-системы (Interactive Voice Response) с технологией распознавания речи ASR (Automatic Speech Recognition) и синтеза речи TTS (Text to Speech) — интерактивные телефонные информационно-справочные системы, необходимые для автоматизации обработки запросов клиентов.

Системы распознавания предложений и слитной речи делятся на:

1. системы раздельной диктовки — требуют произнесения слов с короткой паузой перед каждым следующим словом (ViaType от IBM, Dragon Dictate от Dragon System) Перечисленные системы позволяют также непосредственно диктовать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator. Активный словарь таких систем насчитывает десятки тысяч слов и может пополняться пользователем по его профессиональной тематике.

2. системы распознавания слитной речи (Naturally Speaking от Dragon System, Via Voice от IBM, WildFire от Wildfire Communication, Voice Xpress от Lernout & Hauspie Speech Products) [4, c. 281].

Выделим основные характеристики современных систем автоматического распознавания речи:

1. распознавание слитной речи;

2. словари размером в сотни тысяч слов;

3. возможность работы в голосовом режиме с множеством приложений;

4. работа в реальном времени;

5. работа как с предварительной настройкой на особенности голоса диктора, так и без настройки;

6. точность распознавания речи до 98—99 %.

Данным характеристикам отвечают следующие современные коммерческие программные продукты:

1. Dragon Dictate и Dragon Naturally Speaking от Dragon Systems;

2. Voice Type Dictation и Via Voice от IBM;

3. Voice Xpress Professional от Lernout & Hauspie Speech Products;

4. Listen for Windows от Verbex Voice Systems;

5. Intelligent Voice Recognition System от ComunX и многие другие.

Последние версии программных продуктов Dragon Naturally Speaking v.11 Premium, а также ViaVoice for Windows v.10.0 Pro USB Edition считаются лучшими на сегодняшний день программами распознавания непрерывной речи. Данные программы могут работать в командном режиме и в режиме диктовки текста. Командный режим позволяет запускать при помощи голоса приложения Windows, управлять работой этих приложений, то есть работать с меню, диалоговыми окнами, инструментальными панелями и другими элементами пользовательского интерфейса, а также форматировать текст, введенный в режиме диктовки [5]. Кроме того, программы позволяют отправлять почту, мгновенные сообщения и осуществлять поиск по интернету и компьютеру голосом.

Системы идентификации по образцу речи относятся к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев и рисунок радужной оболочки глаз. Речь характеризуется множеством постоянных физических параметров. Цель идентификации по образцу речи — установить тождественность конкретного известного системе пользователя [4, c. 282].

Взаимодействие пользователя с системой идентификации состоит из трех этапов:

· регистрация пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;

· тестирование, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя;

· допуска к работе в системе, если тестирование прошло успешно [4, c. 283].

Таким образом, технология распознавания речи позволяет использовать естественный для человека голосовой интерфейс, который является более удобным. В связи с этим, системы автоматического распознавания речи находят широкое применение в различных областях жизнедеятельности человека и открывают новые возможности интерактивного естественного взаимодействия человека и компьютера.

Список литературы:

1.Голосовой пользовательский интерфейс: научная фантастика или реальность? [Электронный ресурс] // Речевые технологии: сайт. Аналитическая статья. — Режим доступа: http://www.speetech.by/press/11 (дата обращения: 1.09.2012).

2.История систем распознавания речи. [Электронный ресурс]. — Режим доступа: URL: http://antonkozlov.ru/istoriya/istoriya-sistem-raspoznavaniya-rechi.html (дата обращения 30.08.2012).

3.Симонович, С.В. Информатика для юристов и экономистов: Учебник для вузов / С.В. Симонович. СПб.: Питер, 2002. — 688 с.

4.Федотова, Е.Л. Информационные технологии и системы: учеб. пособие / Е.Л. Федотова. М.: ИНФРА-М, 2009. — 352 с.

5.Фролов, А.В. Синтез и распознавание речи. Современные решения / А.В. Фролов, Г.В. Фролов [Электронный ресурс]. — Режим доступа: http://www.frolov-lib.ru/books/hi/ch06.html (дата обращения: 29.08.2012).

6.Черников, Б.В. Информационные технологии управления: учебник / Б.В Черников. М.: ИНФРА-М, 2008. — 352 с.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

Оставить комментарий