Статья опубликована в рамках: LXXVIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 10 июня 2019 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
АНАЛИЗ ТЕКСТА ПРЕЗЕНТАЦИОННЫМ РОБОТОМ
Современные роботы все больше заменяют людей на таких позициях, которые легко автоматизировать. В условия развития технологий можно автоматизировать и более сложные процессы, чем сборка деталей, например, презентация или экскурсия. В рамках этой задачи, робот, прежде всего, должен уметь воспроизводить текст выступления, анализировать его для поиска по нему ответов, а также искать ответы по заранее заданной базе данных. Для решения этих задач используются различные подходы. Нашей целью является разработка программного обеспечения, для презентационного робота, который приблизил бы робота по возможностям к человеку, в рамках поставленной задачи. Для этого предполагается использовать текст в формате Rdfa, который содержит, как читаемый для человека текст, так и его описание, понятное для робота.
RDFa, или структура описания ресурсов в атрибутах - это рекомендация W3C, которая добавляет набор расширений на уровне атрибутов для HTML, XHTML и различных типов документов на основе XML для встраивания богатых метаданных в веб-документы [4]. Отображение модели данных RDF позволяет использовать его для встраивания выражений субъект-предикат-объект RDF в документы XHTML. Это также позволяет извлекать тройки модели RDF совместимыми пользовательскими агентами.
RDFa впервые был предложен Марк Birbeck в виде W3C записку, озаглавленную XHTML и RDF, который был представлен к Semantic Web Interest Grou в W3C в 2004 техническом пленарном заседании. Позже в том же году работа стала частью шестого публичного рабочего проекта XHTML 2.0. Хотя обычно предполагается, что RDFa изначально предназначался только для XHTML 2, на самом деле целью RDFa всегда было предоставление способа добавления метаданных к любому языку на основе XML. Действительно, один из самых ранних документов с именем синтаксиса RDFa имеет подзаголовок «Коллекция атрибутов» для наложения RDF на языки XML. Документ был написан Марком Бирбеком и Стивеном Пембертоном и был предоставлен для обсуждения 11 октября 2004 года. В апреле 2007 года рабочая группа XHTML 2 выпустила модуль для поддержки аннотации RDF в семействе XHTML 1 В качестве примера в него была включена расширенная версия XHTML 1.1, получившая название XHTML + RDFa 1.0[5]. Несмотря на то, что описанный как не представляющий предполагаемое направление в терминах формального языка разметки от W3C, ограниченное использование DTD XHTML + RDFa 1.0 впоследствии появилось в общедоступной сети. В октябре 2007 года был опубликован первый публичный рабочий проект документа под названием RDFa в XHTML: синтаксис и обработка Это заменило и расширило апрельский проект; в нем содержались правила создания синтаксического анализатора RDFa, а также рекомендации для организаций, желающих практически использовать эту технологию. RDFa 1.1 достиг статуса рекомендации в июне 2012 года. Он отличается от RDFa 1.0 тем, что больше не использует механизм пространства имен, специфичный для XML. Таким образом, можно использовать RDFa 1.1 с не-XML типами документов, такими как HTML 4 или HTML 5. Подробности можно найти в приложении к HTML 5. Существует пять «принципов взаимодействия метаданных», которым RDFa соответствует.
- Независимость издателя - каждый сайт может использовать свои стандарты
- Повторное использование данных - данные не дублируются. Отдельные разделы XML и HTML не требуются для одного и того же содержимого.
- Самодостаточность - HTML и RDF разделены
- Схема Модульность - атрибуты можно использовать повторно
- Расширяемость - могут быть добавлены дополнительные поля, а преобразования XML могут извлечь семантику данных из файла XHTML
Кроме того, RDFa может улучшить доступ к Интернету, поскольку для вспомогательных технологий доступно больше информации.
Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
Процесс понимания и чтения текста очень сложен для компьютерных систем. Большинство людей часто не соблюдают логику и последовательность в своих текстах. Реализация какой-либо сложной комплексной задачи в машинном обучении обычно означает построение конвейера. Смысл этого подхода в том, чтобы разбить проблему на очень маленькие части и решать их отдельно. Соединив несколько таких моделей, поставляющих друг другу данные, возможно получить замечательные результаты. Сам процесс анализа текста разбивается на составные конвейера. Первая часть его - это токинизация, где токен – это отдельная составляющая, маленькая частичка, текста. Принято за токен брать одно слово, хотя это не обязательно. В нашем случае процесс токенизации осложняется использованием тегов RDFa, следовательно необходимо сохранить семантику связей RDFa и оставить текст, доступный для токенезаторов. Следующий этап – это очистка от пустых токенов, которые не несут смысловой нагрузки. Затем все токены приводятся к своей стандартной форме и определяется часть речи для каждого токена. Смысл предложения, а затем и всего текста состоит из токенов, их связи между собой, как частей предложения.
Немаловажно и разобрать задаваемый пользователем вопрос. Для этого необходимо выделить фокус и опору вопроса. Фокус вопроса – это такие сведения, которые несут в себе информацию об ожиданиях пользователя. Опора – это остальная часть вопроса, которая поддерживает вывод вопроса. Семантический тег – это класс запрашиваемой информации. Существует несколько способов анализа вопросов. Первый из них – это семантический шаблон. Этот метод самый простой и фактически содержит набор текстовых шаблонов, разобрав по которым вопрос, можно получить его составляющие. Проблемы данного варианта в том, что им очень сложно покрыть все возможные варианты вопросов. По этой же причине не получается с его помощью точно выделять фокус вопроса. Семантическим шаблоном сложно выделить семантический тег, так как связь между вопросительным словом и семантическим тегом не всегда прямолинейна. Синтаксические шаблоны вопросов представляют собой синтаксическое дерево вопроса. Задаваемый пользователем вопрос разбирается на синтаксическое дерево и сопоставляется с шаблонами. Данный метод уже лучше семантического шаблона, так как позволяет определить фокус вопроса. Разбор вопроса на основе статистики употребления слов в предложении – очень затратный на исследование способ, который требует большого объема данных для анализа. Для каждого вопроса выделяют три признака - слова как есть, части речи, гипертонимы. В итоге работы алгоритма получается модель, которая по вопросу указывает, что значит каждое слово с определенной вероятностью [3].
Следующей после разбора текста презентации и анализа вопроса, проблемой является ранжирование ответа. То есть в результате поиска ответа на заданный пользователем вопрос, может быть найдено несколько ответов. Какие-то из них одинаковые по своей сути, какие-то из них более правильные. Таким образом список ответов предлагается ранжировать по их коэффициенту полезности [1]. Используя расстояние Левенштейна, предполагается определять отличие одного ответа от другого. Проблема возникает в том, как определить полезность ответа. С одной стороны, можно предполагать его полезность по коэффициенту полезности. С другой, по теории управления качеством, полезность ответа должна определяться пользователем в виде некоторой оценки – фидбека. В таком случае система управления качеством сконцентрирована на самовопспроизводстве оценки, которые позволяют улучшить качество ответов на вопрос [2].
Список литературы:
- Вальчук А.С. Разработка математической модели автоматического извлечения знания для гибридной вопросно-ответной системы // Вест. КРАУНЦ. Физ.-мат. науки. 2017. №2 (18).
- Галимов, А. Н. It-стратегия и основные аспекты управления качеством на рынке товаров и услуг / А. Н. Галимов, И. И. Хафизов // Actualscience. - М., 2016. - Т. 2. - № 12. - С. 234-235.
- Соловьёв А. А., Пескова О. В. Построение вопросно-ответной системы для русского языка: модуль анализа вопросов // Новые информационные технологии в автоматизированных системах. 2010. №13.
- Сайт «XHTML and RDF W3C Note». [Электронный ресурс] / Режим доступа: https://www.w3.org/MarkUp/2004/02/xhtml-rdf.html
- Сайт «XML and Semantic Web W3C Standards Timeline». [Электронный ресурс] / Режим доступа: http://www.dblab.ntua.gr/
дипломов
Оставить комментарий