Статья опубликована в рамках: XXIII Международной научно-практической конференции «В мире науки и искусства: вопросы филологии, искусствоведения и культурологии» (Россия, г. Новосибирск, 13 мая 2013 г.)
Наука: Филология
Секция: Прикладная и математическая лингвистика
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
ПРОФИЛИРОВАНИЕ АВТОРА ПИСЬМЕННОГО ТЕКСТА: ПОДХОДЫ, МЕТОДЫ И ИХ ОПТИМИЗАЦИЯ
Литвинова Татьяна Александровна
канд. филол. наук, докторант Воронежского государственного педагогического университета, г. Воронеж
E-mail: centr_rus_yaz@mail.ru
Загоровская Ольга Владимировна
д-р филол. наук, профессор Воронежского государственного педагогического университета, г. Воронеж
E-mail: olzagor@yandex.ru
Середин Павел Владимирович
канд. физ.-мат. наук, с. н. с. Воронежского государственного университета, г. Воронеж
E-mail:
Лантюхова Наталья Николаевна
аспирант Воронежского государственного педагогического университета, г. Воронеж
Шевченко Ирина Сергеевна
аспирант Воронежского государственного педагогического университета, г. Воронеж
Авторы выражают глубокую благодарность Российскому фонду фундаментальных исследований за финансовую поддержку проекта (№ 13-16-00016).
Введение. Задача профилирования автора письменного текста, т. е. определения характеристик автора на основе анализа неподконтрольных автору параметров текста, в настоящее время является актуальной в связи с развитием интернет-коммуникации, участившимися случаями кибепреступлений и пр. Для решения данной задачи, по мнению авторов, необходимо три элемента: 1) специализированный корпус текстов, содержащий метаразметку в виде информации об авторах (пол, возраст, родной язык, образование) и данных их психологического тестирования; 2) набор неподконтрольных автору текста, универсальных, поддающихся подсчету параметров текста; 3) математический аппарат для определения корреляций между параметрами текста и параметрами автора. Ранее мы уже рассматривали первые два элемента таксономии, в данной статье мы рассмотрим применяемый для решения данной задачи математический аппарат.
В настоящее время является общепризнанным, что текст как продукт индивидуальной речевой деятельности может служить средством диагностики индивидуально-типических особенностей свойств личности, стоящей за текстом и владеющей системой языка [9]. У каждого человека есть свои, характерные только для него, особенности употребления языковых структур, своего рода отпечатки пальцев, которые могут быть обнаружены в письменном тексте. Нидерландский исследователь Van Halteren применил к этому явлению термин «человеческий стилом» (по аналогии с человеческим геномом), под которым понимается специфический набор измеряемых языковых параметров, по которым можно определить автора текста [13, с. 65]. Естественно предположить, что, поскольку различия в индивидуальных стилях письма существуют, они не случайны и могут быть объяснены. На наш взгляд, они могут объяснены индивидуальными различиями между людьми. Естественно предположить, что люди со схожими параметрами (пол, возраст, психологические особенности) имеют сходные «стиломы».
Нам близка точка зрения Е.И. Дибровой, согласно которой «текст представляет собой сложное многомерное языковое пространство, где воплощается психология авторского Я, реализуется … замысел — идея задуманного и уникальное явление человеческого сознания — язык» [2, с. 92]. Текст при таком подходе — психофилологическая ценностная система и единая замкнутая структура, которая в неявной форме транслирует информацию о личности его автора.
В наших предыдущих работах [6, 7] было показано, что проблема профилирования, т. е. установления психофизиологических характеристик автора письменного текста на основе анализа несознаваемых, не поддающихся контролю автора характеристик текста (прежде всего грамматических), имеет несомненную теоретическую и практическую значимость.
Нами также было показано, что решение данной задачи не представляется возможным без обращения к математическим и программным средствам для установления корреляций между теми или иными параметрами личности и параметрами текста.
Представляется, что современное состояние лингвистической науки (и решения задачи моделирования личности автора текста в частности) немыслимо без обращения к возможностям математического и компьютерного моделирования. Роль компьютерного моделирования языковых явлений, в частности моделирования языковой личности, стоящей за текстом, особенно возрастает в эпоху интернет-коммуникации, когда в глобальной сети появляется большое количество анонимных и пседноанонимных текстов, в том числе текстов с намеренно искаженной информацией о поле, возрасте, национальной принадлежности автора. Данные обстоятельства требуют создания специализированных алгоритмов и программ, которые бы позволили пользователю с большой степенью вероятности определить пол, возраст и другие характеристики автора текста даже при намеренном искажении этих признаков, что особенно актуально в связи с необходимостью повышения уровня безопасности пользователей, в том числе защиты детей от педофилов, которые, как известно, зачастую намеренно искажают речь с целью выдать себя за представителя другого пола, возраста, психологического профиля и пр.
К настоящему времени накоплено немало исследований, свидетельствующих о выраженности разнообразных индивидуальных свойств субъекта говорения (письма) в продуцируемом им тексте. Однако значительного прогресса в этой сфере до сих пор достигнуто не было [3, с. 400], что связано с тем, что применительно к русскому языку не применялись статистические методики на большом корпусном материале для решения задачи профилирования автора письменного текста. Не существует валидных методик определения характеристик автора текста; нет обобщающих теоретических исследований по данной проблеме; не проведены статистические исследования, направленные на выявление значимости тех или иных языковых единиц для диагностирования характеристик автора текста [1]. Достаточно отметить, что в официально рекомендованном списке литературы для повышения квалификации судебных экспертов по специальности «Исследование письменной речи» в разделе «Основы судебно-автороведческой классификационной диагностики» (целью которой и является выявление личностных характеристик автора текста на основе лингвистического анализа) приведено всего несколько работ, причем одна из них является общетеоретической книгой по психологии восприятия, другие посвящены частным моментам анализа текста.
Печально, что в век компьютерных достижений, «несмотря на эффективность применения статистики для решения многих проблем стилистики и изучения закономерностей функционирования языка в речи, использование статистических методик после «всплеска» активности их употребления в 60–70 гг. ХХ столетия (в основном для задач атрибуции) затем пошло на убыль. Прежде всего сказались трудности освоения гуманитариями математических познаний. Так, собственно статистический анализ и его критерии при оценке полученных показателей постепенно свелись в стилистических работах к арифметическим подсчетам. Кроме того, оказались недостаточно отработанными проблемы интерпретации статистических показателей, методологии применения последних с учетом специфики изучаемого стилистикой объекта, проблемы связи экстралингвистического со стилистическим, что не способствовало рождению гипотез, требующих проверки объективными методами» [5, с. 233].
1. История разработки проблемы русскими учеными. Как уже было отмечено выше, задача профилирования автора письменного текста является для российской науки относительно новой, однако на протяжении долгого времени (более ста лет) рассматривается задача атрибуции письменного текста (первоначально — только художественного, ср. попытки решить проблему авторства «Тихого Дона» и пр.). Вопросами идентификации автора текста в России, в частности, занимались Морозов Н.А., Марков А.А., Фоменко В.П. и Фоменко Т.Г., Хмелев Д.В., Хетсо Г., Рогов А.А., Сидоров Ю.В., Комиссаров А.Ю., Шевелев О.Г., Поддубный В.В, Марусенко М.А. Целесообразность привлечения статистических методов в лингвистике вообще и при изучении стиля в частности отмечалась в большом количестве исследований. Такие «нетрадиционные» методы стали совершенно традиционными в исследовании стиля и позволяют получить не столько количественные, сколько качественные выводы.
Теоретически основанием для использования математических методов исследования письменной речи является стохастическая (вероятностная) модель порождения речевого высказывания: благодаря прочной фиксации навыков письма и образования в коре головного мозга систем временных нервных связей – динамического стереотипа, нервный труд, затрачиваемый в процессе письма, уменьшается и создается возможность писать автоматизировано, что позволяет атрибутировать, т. е. определять, кто из авторов (А, В, С, etc.) является автором данного текста.
Задача атрибуции является смежной по отношению к задаче профилирования автора письменного текста, в данной области были достигнуты определенные результаты, в связи с чем кратко остановимся на обзоре математических методов и программных средств для решения задач атрибуции.
Были созданы также программные комплексы для автоматического определения автора письменного текста, однако, как отмечают современные исследователи, эти комплексы имеют существенные недостатки (математический и лингвистический аппарат не всегда гарантирует точный результат, демонстрационный характер) и не могут применяться для решения практических задач.
Объем текста, необходимого для работы программ, в лучшем случае составляет 30 000 символов, что также ставит под сомнение возможность их использования в случае атрибуции реальных спорных текстов. Существующие программы не ориентированы на работу с короткими текстами, имеющими свою специфику. Особенности русского языка при анализе авторства не учитываются. Современные машинные методы интеллектуального анализа данных реализованы в них лишь частично [8].
Нерешенной задачей является идентификация авторства коротких текстов. Существующие методы работают с текстами объемом более 30000—40000 символов и большим количеством обучающих примеров (5—100 и более). Поэтому актуальной задачей является поиск решений для снижения требуемого объема выборок и их количества [8].
Сравнительный анализ методов на представительных корпусах, приведенный в работах ряда авторов [8, 10], показывает, что лучшим классификатором в настоящее время является машина опорных векторов. Сопоставимые результаты дают искусственные нейронные сети, но требуют существенных временных затрат на обучение.
Таким образом, мы можем сделать вывод, что в настоящее время задача атрибуции текста, особенно короткого, является нерешенной, однако современные авторы считают, что будущее в этой области — за методами машинного обучения (метод опорных векторов, распознавание образов, нейронные сети).
В настоящее время предпринимаются попытки применять достижения компьютерной техники и для диагностики личности по тексту, что выражается в том числе и в создании специализированных компьютерных программ.
Компьютерная программа ВААЛ (www.vaal.ru) позволяет на основе анализа лексики текста определить акцентуацию его автора. Данная функция программы основана на научных результатах, полученных В.П. Беляниным.
Сервис «Анализ писем» (http://www.analizpisem.ru) предлагает определить настроение автора в момент написания сообщения. Данный анализ основан на теории фоносемантики, разработанной В.Ф. Журавлевым. Всем звукам русского языка на основании опросов сопоставлены оценки. В свою очередь, качественные фоносемантические шкалы позволяют оценивать влияние звуков на эмоциональное состояние человека и наоборот, определять как настроение человека находит выражение в тех или иных звуках — точнее буквах текста письма. Каждая буква русского языка обладает определённой частотой встречаемости. Соответственно, если человек в письме употребляет определённые звуки (буквы) чаще или реже их средней частоты встречаемости, то эти звуки обладают для этого человека определённой подсознательной значимостью. В свою очередь, это и характеризует настроение человека.
Математический аппарат представленных сервисов не описан. Их задача является смежной по отношению к рассматриваемой нами задаче: они позволяют определить тональность текста (что, естественно, тоже немаловажно), но не постоянные психофизиологические характеристики его автора.
Таким образом, мы видим, что задача диагностирования личности автора текста на основе неподконтрольных автору, но поддающихся квантификации параметров с использованием математического аппарата и программных средств для русского языка является нерешенной.
2. История разработки проблемы зарубежными учеными. За рубежом уже около трех десятков лет активно применяются лингвистические методы идентификации личности по ее анонимному тексту. Так, еще в 1979 г. немецкий исследователь K. Scherer в монографии «Социальные показатели в речи» [17] указал на возможность выявления по речи не только социальных характеристик ее автора (положение в обществе, образование, род занятий и социальная роль), но и его физических особенностей (пола, возраста, состояния здоровья), а также некоторых психологических черт. С тех пор зарубежные ученые на материале корпусов текстов и с применением мощных математических инструментов выявили ряд эффективных языковых параметров с высокой диагностирующей возможностью применительно к английскому языку.
Изначально использовались статистические методы анализа, в частности, множественный регрессионный, который позволяет установить степень зависимости зависимых переменных от независимых [15]. Личность рассматривается как зависимая переменная, причем это не означает, что мы считаем личность определяемой языковыми параметрами. Но лишь с помощью такого подхода, по мнению исследователя, возможно установить взаимосвязь между личностными параметрами и комплексом лингвистических характеристик.
Работа Automatically Profiling The Author Of An Anonymous Text [11] в настоящее время является классической работой в части постановки задачи профилирования автора в новейшем периоде исследований. Авторы представляют каждый документ как численный вектор X = (x1,..,xi,…,xn), где n — число признаков, а xi — относительная частота признака i в документе. Как только мы представили каждый документ в обучающей выборке таким образом, мы можем применить методы машинного обучения для обучения классификатора, который расклассифицирует новые, непомеченные документы по категориям. Все самые эффективные многоклассовые классификаторы (для есть два и более классов) в автороведении имеют одну и ту же структуру. Мы ищем весовой фактор Wj = (w1j,…,wij,…,wnj) для каждой категории cj и затем относим документ X к классу, для которого внутреннее значение Wj*X максимально.
Существует несколько эффективных алгоритмов для вычисления весов факторов. Авторы статьи использовали Bayesian Multinomial Regression (BMR), который, по их наблюдениям, оказался эффективным и точным для задач классификации текстов.
Архитектура предложенного комплекса по диагностированию личности автора текста с использованием машинного классификатора следующая: документ, помеченный по той или иной категории (например, полу), используются как обучающая выборка, он обрабатывается лингвистически, с использованием таггеров и парсеров, вычисляются частоты признаков, для каждого текста строится численный вектор. С использованием метода машинного обучения строится классификационная модель, которая потом применяется к векторам, вычисленным для текстов, характеристики авторов которых неизвестны. Вычисляется точность классификатора, т. е. степень эффективность методики, при этом наиболее значимые лингвистические признаки дают грубую характеристику языковых различий между авторами по тому или иному параметру (полу и др.).
При поддержке правительства США была создана самая известная за рубежом программа для профилирования автора письменного текста — Тext Attribution Tool (ТАТ) [12]. Программа определяет профиль автора путем вычисления значений лингвистических параметров текста, перевода их в векторную форму (модуль предобработки текста) и их обработки методами машинного обучения на основе степени сходства с параметрами текстов, содержащимися в базе программы, информация об авторах которых достоверно известна. Используется метод опорных векторов, обучение при помощи нейронных сетей и др. методы машинного обучения (аналитический модуль программного комплекса).
Цель классификатора — соотнести вектора параметров, извлеченные из документов, с характеристиками автора. Полученные пары векторов параметров и характеристик автора использовались для обучения и настройки классификаторов. Формально классификаторы — это функции, которые связывают векторы параметров и характеристики автора, и разработаны классификаторы для каждой характеристики (демографических: пола, возраста, родного языка и страны пребывания и уровня образования; психологических: уступчивости, сознательности, экстраверсии, невротичности и открытости).
По модели данной программы была разработана аналогичная программа для вьетнамского языка — VBP (Vietnamese Blog Profiling, [16]) — модель для анализа, эксперимента и предсказания личной информации о неизвестном авторе на материале вьетнамских блогов. Эта идея заимствована у создателей TAT, которые разработали средства для помощи в установлении информации об авторе текста на английском языке. Данная модель также состоит из модулей выбора признаков текста, классификации текста с помощью машинного классификатора.
Как отмечает автор, многие алгоритмы машинного обучения применялись для решения проблемы классификации текстов, наиболее часто применяемые — наивный байессоновский, опорных векторов, наименьших квадратов, нейронных сетей, k-ближайшего соседа. Успех классификатора зависит во многом от выбора алгоритма, подходящего для данного текста и языка.
Как рапортует автор, точность классификации для всех свойств превышает 77 % и существенно превосходит случайную величину. Наиболее эффективным алгоритмом оказались IBk (IB1) и Random Forest. Эти два алгоритма были в топе-2 для всех характеристик. Интересно, что метод опорных вектор не показал хорошей эффективности в данном исследовании, хотя другими авторами признается достаточно эффективным. Этот момент нуждается в дополнительном исследовании, но автору кажется, что он использовал слишком мало признаков (около 300) для того, чтобы данный вектор смог дать хорошие результаты.
Обобщая результаты новейших исследований, F. Mairesse, M. Walker [14] считают, что в зависимости от конкретных целей исследования задача моделирования личности по тексту может быть приведена к одному из следующих видов математических задач:
1. задача регрессии, например, на основе анализа текста делается вывод, что уровень экстраверсии автора — 4,3 из 5. Применяемые методы — линейная регрессия, дерево регрессии;
2. задача классификации, например, решить, кто автор текста — экстраверт или интроверт. Методы — дерево решений, наивные баессоновские, ближайшего соседа;
3. задача ранжирования (ranking problem), например, А более экстравертен, чем В. Методы — RankBoost: нелинейная модель, использующая boosting, вычисляет значения ранжирования для каждого примера; минимизирует ошибку ранжирования в обучающей выборке.
Таким образом, мы видим, что зарубежные исследователи продвинулись достаточно далеко в решении задачи профилирования автора письменного текста, однако вопрос об оптимальном математическом аппарате для решения данной задачи остается открытым.
3. Предлагаемый авторами метод решения задачи. Мы предлагаем подход к решению задачи профилирования автора письменного текста, основанный на анализе данных (data-driven approach). Данный подход состоит из нескольких этапов:
1) Собрать аннотированный корпус текстов.
2) Провести психологическое тестирование авторов данных текстов.
3) Извлечь количественные значения параметров текста (при помощи существующих таггеров и парсеров).
4) Построить статистическую модель, связывающую значения параметров и данных тестирования.
5) Протестировать модель на вновь собранных текстах.
Наш подход к профилированию автора будет основан на методах корреляционно-регрессионного анализа, что имеет под собой определенные основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и т. д. С помощью корреляционно-регрессионного анализа мы сможем определить необходимость включения тех или иных факторов в уравнение множественной регрессии, которые опишут исследуемые закономерности, а также оценить полученное уравнение регрессии на соответствие выявленным связям параметров текста и данных психологического тестирования авторов текстов.
Применение регрессионного анализа позволит нам моделировать, проверять и исследовать, а также объяснить факторы, стоящие за наблюдаемыми структурными закономерностями при профилировании автора письменного текста, а также поможет учесть невозможность сложения влияний отдельных факторов, связанных с эффектом мультиколлинеарности или влиянием независимых факторов друг на друга, т. е. учесть, что каждый фактор влияет на результат как непосредственно, так и опосредованно, через связь с другими факторами.
Использование в дальнейшем машинного обучения к категоризации текста (по аналогии с [18]) позволит на основе корпуса обучающих документов, каждый из которых помечен в соответствии с категорией профилирования, различить авторов по релевантным категориям. Метод машинного обучения, в основе которого будут положены все те же методы корреляционно-регрессионного анализа, даст возможность классифицировать обучающий документ наиболее достоверным образом.
Выводы. Привлечение статистических методов анализа к решению задачи профилирования автора письменного текста позволит свести большое количество наблюдений к ограниченному объему выводов, оценить степень их достоверности и получить объективные, поддающиеся проверке и позволяющие проводить сопоставление с аналогичными работами результаты.
Список литературы:
- Галяшина Е.И. Основы судебного речеведения. — М.: СТЭНСИ, 2003. — 236 с.
- Диброва Е.И. Пространство текста в композитном членении // Структура и семантика художественного текста: докл. VII Междунар. конф. — М.: СпортАкадемПресс, 1999. — С. 91—138.
- Енгалычев В.Ф. Юридическая психолингвистика // Прикладная юридическая психология: учеб. пособие / под ред. А.М. Столяренко. — М.: Юнити-Дана, 2001. — С. 399—406.
- Загоровская О.В., Литвинова Т.А., Литвинова О.А. Электронный корпус студенческих эссе на русском языке и его возможности для современных гуманитарных исследований // Мир науки, культуры и образования. — 2012. — № 3. — С. 387—389.
- Кожина М.Н. Стилостатистический метод анализа текста // Стилистический энциклопедический словарь русского языка. — М.: Флинта; Наука. Под редакцией М.Н. Кожиной. 2003. — С. 233—234.
- Литвинова Т.А. Лингвистические основы неидентификационной судебно-автороведческой экспертизы // Вестник Челябинского государственного университета. Серия: Филология. Искусствоведение. — 2012. — № 20 (274). Филология. Искусствоведение. Вып. 67. — С. 74—78.
- Литвинова Т.А. Языковые корреляты личностных особенностей автора письменного текста: алгоритм исследования // В мире научных открытий. Серия: Проблемы науки и образования. — 2012. — № 3. — С. 236—254.
- Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста: дис. канд. техн. наук: 05.13.18. Томск, 2010. 149 с.
- Фомина Н.А. Индивидуально-типические особенности свойств личности и их проявления в речи: дис. д-ра психол. наук: 19.00.01. М., 2002. 404 с.
- Шевелев О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: дис. канд. техн. наук: 05.13.18. Томск, 2006. 176 с.
- Argamon Sh., et al. Automatically Profiling the Author of an Anonymous Text // Communications of the ACM. — 2009. — Vol. 52, Issue 2. — Р. 119—123.
- Estival et al. TAT: An Author Profiling Tool with Application to Arabic Emails // Proceedings of the Australasian Language Technology Workshop. — 2007. — Р. 21—30.
- Halteren H. van, et al. New Machine Learning Methods Demonstrate the Existence of a Human Stylome // Journal of Quantitative Linguistics. — 2005. — Vol. 12, № 1. — P. 65—77.
- Mairesse F., Walker M. Words Mark the Nerds: Computational Models of Personality Recognition through Language // Proceedings of the 28th Annual Conference of the Cognitive Science Society. — Р. 543—548.
- Oakes M. Text categorization: Automatic Discrimination Between US and UK English Using the Chi-Square Text and High Ratio Pairs // Research in Language. — 2003. — Vol. 1. — Р. 143—156.
- Pham D.D., Tran G.B., Pham S.B. Author Profiling for Vietnamese Blogs // International Conference on Asian Language Processing: Recent Advances in Asian Language Processing, IALP 2009. — P. 190—194.
- Scherer K. Social Markers in Speech. — Cambridge University Press, 1979. — 410 р.
- Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. — 2002. — Vol. 34, № 1. — P. 1—47.
дипломов
Оставить комментарий