Статья опубликована в рамках: CXXIV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 06 сентября 2021 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
МУЛЬТИМОДАЛЬНЫЙ ИНТЕРФЕЙС
MULTIMODAL INTERFACE
Akhmed Salikhov
undergraduate, department of computing systems and networks, Saint Petersburg State University of Aerospace Instrumentation,
Russia, Saint Petersburg
АННОТАЦИЯ
В данной статье рассматриваются основные методы взаимодействия человека с машинами и их характеристики. На их основе составлена обобщенная архитектура мультимодального интерфейса с шестью основными подсистемами. В результате исследования были выявлены различные типы взаимосвязи между модальностями.
ABSTRACT
This article discusses the main methods of human interaction with machines and their characteristics. On their basis, a generalized architecture of a multimodal interface with six main subsystems has been compiled. As a result of the study, various types of relationships between modalities were identified.
Ключевые слова: окружающая среда, модальности, менеджер взаимодействия, система, мультимедийная система.
Keywords: environment, modalities, interaction manager, system, multimedia system.
Человек в реальном мире использует свои сенсомоторные системы для взаимодействия с окружающей средой и общения с другими людьми, применяя для этого различные вербальные (язык, речь) и невербальные (мимика, жесты, запахи, касания и др.) средства.
В области человеко-машинных интерфейсов [1, 3-4]:
– модальность – тип канала коммуникации, используемого для взаимодействия;
– мультимодальная система (Multimodal system) – поддерживает коммуникацию с пользователем через различные модальности, например, такие как голос, жест и печатание;
– мультимодальное взаимодействие (multimodal interaction) – взаимодействие пользователя с приложением, используя более чем один сенсомоторный канал коммуникации.
Основное различие между мультимодальной системой и мультимедийной системой состоит в том, что «мультимедийная система позволяет приобретать, хранить и распределять данные, в то время как мультимодальная система способна к приобретению и интерпретации данных, так же как хранению и распределению этих интерпретаций. Поэтому можно сказать, что мультимодальная система – это система с мультимедийными способностями, которая позволяет производить семантическую обработку данных» [2, с. 151].
Можно перечислить следующие преимущества мультимодального взаимодействия человека с машиной [3]:
– более естественное и выразительное взаимодействие, позволяющее пользователю работать с компьютером аналогично тому, как люди взаимодействуют друг с другом естественным образом – с помощью речи, взгляда, мимики, жестов, поз, касаний и т. п.
– повышение эффективности выполнения задач (время, усилия, обработка ошибок), в том числе повышение точности при решении пространственно-визуальных задач;
– поддержка наиболее предпочитаемого пользователем способа взаимодействия;
– снижение требований к интерфейсным знаниям пользователя.
Тем самым это обеспечивает для сложных человеко-машинных систем расширение не только доступности, привлечения более широкой аудитории, но и ситуаций использования.
Обобщенная архитектура мультимодального интерфейса [1] представлена на рисунке 1.
Рисунок 1. Обобщенная архитектура мультимодального интерфейса
Основными ее подсистемами являются:
1. Ввод – реализация мультимодального взаимодействия с использованием нескольких режимов ввода, таких как речь, жесты, рукопись, текст, движения и др. Включает три компонента:
– распознавание – воспринимает естественный ввод от пользователя и переводит его в форму, пригодную для дальнейшей обработки;
– интерпретации – идентифицирует «значение», или «семантику», подразумеваемую пользователем;
– интеграции (мультимодальное слияние) – объединяет все входящие унимодальные события в единое представление намерения, выраженное пользователем.
2. Вывод – реализация мультимодального взаимодействия, используя несколько режимов вывода, таких как, речь, текст, графика, аудио файлы и анимация. Включает три компонента:
– генерацию (мультимодальное разделение) – определяет, какой способ вывода будет использоваться для представления информации пользователю;
– стиль – добавляет информацию о том, как информация должна представляться;
– представление (рендеринг) – конвертирует информацию из компонента стиля в формат, который легко понять пользователю.
3. Менеджер взаимодействия – это логический компонент, который координирует данные и управляет потоками из различных входных и выходных модальностей. Он поддерживает состояние взаимодействия в контексте приложения, отвечает на входы от составляющих интерфейс объектов и изменения в системе и окружающей среде, управляет этими изменениями и координирует вход и выход через составляющие интерфейс объекты.
4. Компонент сессии – предоставляет интерфейс для менеджера взаимодействия, чтобы поддерживать управление состояниями, а также временными и постоянными сессиями для мультимодальных приложений.
5. Компонент системы и окружающей среды – позволяет менеджеру взаимодействия обнаруживать возможные изменения устройств, параметров пользователя, состояние окружающей среды и реагировать на них.
Существуют различные концептуальные модели мультимодального интерфейса [2], которые с разных точек зрения позволяют описывать, классифицировать и оценивать различные типы связей между взаимодействующими модальностями.
В результате исследований в таких областях, как психология, искусственный интеллект, человеко-машинное взаимодействие, были выявлены пять типов взаимосвязей между модальностями:
1) трансформация: устанавливает, какая часть информации, порожденная одной модальностью, будет использоваться другой модальностью.
2) эквивалентность: две модальности считаются эквивалентными, если часть информации может быть обработана как альтернатива любой из модальностей.
3) специализация: указывает на определенный тип информации, который всегда обрабатывается одной и той же модальностью.
4) избыточность: некоторые модальности взаимодействуют избыточно, когда они обрабатывают одну и ту же информацию.
5) комплементарность: рассматриваются несколько модальностей, каждая из которых обрабатывает различные части информации, которые впоследствии объединяются.
Список литературы:
- Multimodal Interaction Working Group [Электронный ресурс] // URL: http://www.w3.org/2002/mmi/Overview.html (дата обращения 01.09.2021).
- Архитектура виртуальных миров: монография / Под ред.: М. Б. Игнатьев, А. В. Никитин, А. Е. Войскунский. – 2-е изд., перераб. и доп. СПб.: ГОУ ВПО «СПбГУАП», 2009. 287 с.
- Turk, M. Multimodal interaction: A review. Pattern Recognition Lett. (2013) [Электронный ресурс]. URL: http://dx.doi.org/10.1016/j.patrec.2013.07.003 (дата обращения 01.09.2021).
- Bruno Dumas, Denis Lalanne, Sharon Oviatt. Multimodal Interfaces: A Survey of Principles, Models and Frameworks // Human Machine Interaction. Lecture Notes in Computer Science Volume 5440, 2009. Р. 3–26.
дипломов
Оставить комментарий