Статья опубликована в рамках: Научного журнала «Инновации в науке» № 9(70)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал
КЛАССИФИКАЦИЯ НАУЧНОГО ТЕКСТА С ПОМОЩЬЮ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА
THE THEORY OF CLASSIFICATION OF SCIENTIFIC TEXTS USING LATENT SEMANTIC ANALYSIS
Aigerim Ismukanova
RF graduate student “Omsk State University named after F. M. Dostoyevsky”,
Russia, Omsk
Akku Kubigenova
lectureres Kokshetau State University named after Sh. Ualikhanov
Kazakhstan, Kokshetau
Zamzagul Ozhibayeva
lectureres Kokshetau State University named after Sh. Ualikhanov
Kazakhstan, Kokshetau
АННОТАЦИЯ
В течении прошлых двух десятилетий исследование научных текстов фокусировалось на факторах, влияющих на понимание языка. Однако в настоящее время отсутствуют исследования в области компьютерных технологий, способных к точной оценке классификации научного текста. Новые технологии, для модели LSA (латентного-семантического анализа) могли представлять важное усовершенствование в исследовании оценки научных текстов.
Модель LSA, несмотря на трудоемкость и непрозрачность, может использоваться для разного ряда задач при обобщении или расширении смысла поискового запроса.
ABSTRACT
During the past two decades the study of scientific texts focused on the factors affecting the understanding of the language. However, at presents there are no studies in the field of computer technology, capable of accurate assessment of the classification of the scientific text. New technologies for the LSA model could represent a important advance of the assessment of scientific texts.
LSA model despite the complexity of the opacity and can be used for a number of different tasks with a generalization or extension of the meaning of the search query.
Ключевые слова: латентный семантический анализ (ЛСА), искусственные нейронные сети (ANNs), машинное обучение (МА), классификация.
Keywords: latent semantic analysis (LSA), artificial intelligence (AI), artificial neural network (ANNs), machine learning (ML), classification.
В течении прошлых двух десятилетий исследование научных текстов привлекало внимание факторах, влияющих на понимание иностранного языка. Однако в настоящее время отсутствуют исследования в области компьютерных технологий, способных к точной оценке классификации научного текста.
Цель работы состояла в том, чтобы проанализировать, как новые алгоритмы могут улучшить с помощью анализа ЛСА оценки кратких изложений. Метод латентного анализа, несмотря на трудоемкость и непрозрачность, может использоваться для разного ряда задач при расширении смысла поискового запроса.
Латентный семантический анализ (ЛСА) – вычислительная лингвистическая модель, которая предлагает математическое представление семантической области. Она также может быть задумана как автоматический статистический метод для представления значения слов и отрывков текста. Этот инструмент способен анализировать огромную, размерную матрицу, где каждая строка представляет собой оцифрованное слово (термин) и столбец имеет один абзац (документ) [1, 25].
ЛСА позволяет сравнивать семантическое сходства между различными частями текстовой информации, например, предложения или параграфы (Фольц, 1996; Ландауэр, 1998; Ландауэр и Дюмэ, 1997; Ландауэр, Фольц, и Лахам, 1998), а также резюме (Фольц, 1996; Е. Kintsch, Стейнхарт, Stahl, и LSAResearchGroup, 2000; Леон, Олмос, Эскудеро, Каньяс, и Сальмерон, 2006).
Несмотря на то, что за последние 30 лет исследования в области Искусственного интеллекта (ИИ) достигли значительных успехов, конечная цель этих исследований – создание машин, понимающих человеческий язык, все еще не достигнута.Исторически так сложилось, что исследования в области ИИ сосредоточены на задачах, которые считались интеллектуально сложными, и поэтому впечатляющими для человека оказались: быстрые вычисления, дословное запоминание, игра в шахматы на гроссмейстерском уровне, автоматическое доказательство теорем и т.д. Интересно, что для персональных компьютеров все это довольно просто освоить. Ранние триумфы в этих областях внушали оптимизм, который не распространился на другие области, например, такие как распознавание объектов или понимание естественного языка, что в свою очередь, привело к многократным периодам пессимизма (известный как " AI winters").
Не правильное вероятностное распределение слов в любом естественном языке является определенным недостатком. Но эту задачу, возможно решить сглаживанием выборки. Например, применение фонетических словосочетаний(распределение становится более «нормальным»). Либо используют вероятностный ЛСА (латентно- семантический анализ), так называемый PLSA (Probabilistic latent semantic analysis), сконструированный на мультиноминальном распределении.
Также недостатком метода ЛСА является «туманность» самого метода в частности, выбора количества сингулярных значений диагональной матрицы и интерпретации результата, примененных к обработка неструктурированной информации.
Фундаментальный характер в области Искусственного интеллекта проявляется и отражается множеством подходов к пониманию роли науки и технике в разработке создании интеллектуальных машин.
Источники, которые могут быть прослежены от философских работ Канта и Хайдеггера, называется гипотезой воплощенного познания: познание может прийти только из машин, оборудованных сенсорными и моторными навыками (Ручьи, 1990; Лакофф и Джонсон, 1999).Эта точка зрения особенно популярна в области робототехники и нейробиологии и находится в прямом противоречии к высокоуровневому "символическому ИИ" подходу. Хьюберт Дрейфус решительно утверждал, в начале 1960-х, что человеческий разум глубоко зависит от бессознательных инстинктов и рефлексов, что эти навыки не могут быть получены с помощью формальных правил (Дрейфус, 1967).
Расширения этой модели включают лингвистическую модальность, логик высшего порядка, пропозициональные отношения (Крессуэлл, 1985) и т.д. Особенно обоснованной теорией является – Transparent Intensional Logic (TIL), введенной впервые в (Tichý, 1969). TIL - основывается на различии между значением, ссылкой и обозначении, позволяет принципиально выводить над предложениями обобщенных в логических построений произвольные высшего порядка. Текущую работу можно посмотреть также из материалов Матерна и (1989); Матерна (2004).Спецификация правило происходит на более низком уровне, и семантические свойства надеются стать (то есть, проявляются в поведении машины) не будучи явно запрограммированными (Чалмерс, 1992) [3, 68]. К примерным исследованиям можно включать Искусственные Нейронные сети (ANNs), статистическое моделирование и другие разделы науки машинного обучения. Благодаря доказанной математической основе и использованию математики как базового языка, этот подход позволил «сотрудничать» через многие ранее разъединенные области информатики, такие как обработка изображений, речевая обработка или обработка естественного языка, а также экономика, биология и сама математика (Russell и Norvig, 2009) [2, 68].
В 1979 г. в Борке состоялась I Всесоюзная школа-семинар по теории и методологии классификации, в 1981 г. в Новосибирске прошла Всесоюзная конференция по теории классификаций и анализу данных, в 1982 г. в Пущано работал семинар по арифмологическим аспектам классиологии, в 1984 г. там же состоялось рабочее совещание по теории классификации. Существенный вклад в это движение внесла деятельность московского междисциплинарного семинара по теории и методологии классификации в МОИП, ленинградского семинара по семиодинамике при совете молодых ученых ЛГУ и других региональных семинаров.
Национальные классификационные общества во многих странах существовали уже в 60-е гг. Международный журнал по классификации издается в ФРГ с 1974 г. В 1982 г. в Аугсбурге состоялась 4-я Международная конференция по исследованию классификаций.
Общая теория классификации строится не на пустом месте. Камни в ее фундамент закладывались такими классиками систематики, как К. Линней, Д.И. Менделеев, А.А. Любищев. Их труды в этом направлении отличаются большим дальнодействием. Критикуя проявления узости в долгосрочном планировании науки, А.А. Любищев подчеркивал важность поиска и выделял необходимость упорядочения, рассматривая в триединстве план, поиск и порядок. Откликаясь на статью академика Н.Н.Семенова «Наука сегодня и завтра» в газете «Известия» за 9 августа 1959г., он писал: «На ближайшие 50-100 лет с полной уверенностью можно сказать, что огромная работа должна быть проделана каталогизации и упорядочению колоссального количества отдельных факторов». Наступило время, когда эта работа стала насущной необходимостью.
Задачей машинного обучения относится процесс выполнения переработки информации с помощью интеллектуальной структуры. Этот метод был разработан с появлением ИИ.
Машинное обучение - используется в распознавании текстов во входном потоке. Математический анализ применяется в машинных алгоритмах при изучении разделов теоретической информатики, и известна как вычислительная теория обучения(англ.Computation all earning theory).
К области машинного обучения относится большой класс задач на распознавание образов - это исследование рукописного текста, символики, знаков, речи, анализ текстов.
ИИ фокусируется на построении компьютерных программ, которые учатся на опыте (относительно некоторого полезного, но ограниченного класса задач и показатели производительности (Mitchell, 1997)), называют Машинное обучение (МА). Его цель состоит в том, чтобы произвести методы, которые обнаруживают образцы и регулярность в полуструктурированных или неструктурированных данных. Много небольших разделов МА включают классификацию, кластеризацию, вероятностное обоснование или теорию решений.
Несмотря на его успешные приложения, текущие современные методы МА содержат многое из того, что можно было вызвать “достоинством при необходимости” - математические модели, которые управляют ими позади сцены, выбраны для их вычислительного удобного манипулирования, и обычно содержат упрощенные предположения; их часто трудно интерпретировать для человеческих экспертов. С небольшим количеством творческой лицензии это можно было также вызвать “немой, но полезной” парадигмой: даже самые усовершенствованные и современные методы NLP, как варианты Скрытого Выделения Дирихле, описанного в работе, отмечены наивными предположениями, в котором базовая модель явно не соответствует в моделировании естественного языка. [3, 199].
В данной работе рассматривается задача масштабируемости при применении этих методов к современным наборам данных. Затем вторая часть применяет эти общие семантические методы для конкретных, реальных проблем. В нем представлены некоторые связанные семантические алгоритмы, например, как тема и сегментация языка. Цель их состоит в том, чтобы удостовериться, что мы сравниваем “груши с грушами” при рассмотрении семантического сходства в неоднородных текстах.
Семантическая статистика. В данной ситуации определенная актуальность работы по разработки систем преобразования текстовой информации, испытывают трудности даже высококвалифицированные специалисты, в поиске документов и распределение полученных текстовых данных по темам. Чтобы получить информацию или документ часто используют отдельные абзацы, отрывки, предложения, фразы или даже просто последовательности символов. Идеальная детализация, что представляет собой “документ” зависит от предполагаемого применения состава.
В этих обобщенных настройках документы также иногда используют контексты или блоки. Может быть, выгодно просмотреть и хранить документы как “семантически когерентные блоки текста”, где каждый блок имеет дело с единственной идеей или темой.
Было доказано, что слова, которые происходят в контекстах, семантически связаны (Harris, 1954; Фурнас и др., 1984); посмотрите (Turney и Pantel, 2010) этот материал для полного обзора. Это часто формулируется более широко как статистическая гипотеза семантики: “Статистические образцы человеческого использования слова могут использоваться, чтобы выяснить то, что имеют в виду люди”.Ферт (1957), постулирует, что "Вы должны узнать слово по его окружению". Давно замечено, что слова, которые встречаются в схожих контекстах семантически связанные (Харрис, 1954; Фурнаш с соавт. 1984 ); для более полного представления ознакомьтесь с трудами (Турней и Пантел 2010,).
Очевидно, что формулировка здесь является достаточно широкая и гипотеза более философская, чем практический характер. Она наиболее тесно связана с лексической семантикой в рамках традиционной иерархии NLPсемантики (Аллен, 1995), или отношения слово-слово (Гриффитс и др. 2007).
Тем не менее, статистическая гипотеза семантики служила важной ступенькой к более конкретным, расчетно-ориентированным экземплярам, таким как основанное на расстоянии представление о гипотезе «мешок» слов.
BAG OF WORDS ИЛИ МЕШОК СЛОВ
Мешок слов или Bag of Words – данная модель не редко рассматривается при обработке документов и текстов, использующий беспорядочный комплекс слов, входящих в обрабатываемый текст. Модель рассматривают в виде матрицы, в которой строка совпадает с отдельным текстом, а столбец – входящим в него словам. Числом вхождения данного слова в определенный документ относятся ячейки. Эта модель преобразовывает человеческий язык слов в понятный для компьютера кодовый язык двоичных цифр.
В Информационном поиске гипотеза «мешка слов» предусматривает, что такие частотности слова могут использоваться, чтобы оценить семантическую уместность документов. Другими словами, это утверждает, что частоты отдельных слов достаточно показательны из семантической ассоциации между двумя документами (или документом и запросом).
Само собой разумеется, гипотеза «мешок слов» крайне наивна с лингвистической точки зрения. Игнорируя порядок слов, а также любую синтаксическую структуру, может обязательно подвергнутся серьезной потере информации.
По этой причине в данной работе рассматриваются, в основном, вопросы, связанные с применением методов машинного обучения к задаче автоматической классификации текстов. Отметим некоторые характерные особенности этой задачи:
1. Тексты являются текстами на естественном языке, не имеют четкой формализации, не структурированы, не являются техническими.
2. Количество классов в задачах классификации текстов, как правило, достаточно велико, а сами классы имеют мало общего. Впрочем, в более сложных случаях, не рассмотренных в настоящей работе, классы могут образовывать иерархию.
3. Как правило, большой важностью обладают вопросы производительности, так как. в приложениях тексты необходимо обрабатывать в реальном масштабе времени.
4. Сама задача достаточно хорошо исследована, имеется большое количество публикаций, посвященных этой теме и содержащих оценки качества работы различных алгоритмов на стандартных наборах данных.
Повышение качества классификации новостных текстов на основе использования современных методов машинного обучения.
Для достижения этой цели в научной работе решаются следующие задачи:
1. Разработка способов признакового описания текстовых документов.
2. Анализ существующих методов решения традиционных задач машинного обучения и модификация этих методов с целью повышения показателей качества моделей, получаемых с их помощью.
3. Разработка модифицированных версий классических алгоритмов машинного обучения.
4. Разработка методов построения модельных деревьев решений алгоритмических композиций, на их основе для решения задач восстановления регрессии и классификации.
5. Сравнительный анализ известных и предложенных автором методов машинного обучения применительно к задачам восстановления регрессии и классификации.
На базе теоретического конструирования моделей всех возможных форм исследуемой действительности развитие научных теорий выявило и реализовало возможность построения классификаций [4, 28].
Проанализировав вышеизложенный материал можно сделать вывод, что
исследование научных текстов фокусировалось на факторах, влияющих на понимание метода с помощью анализа. В этом исследовании использован изученный материал учеными, а также определены методы анализа при классификации текста с помощью латентно-семантического анализа.
Список литературы:
- Аббаси, Ахмед и Синьчунь Чен. Визуализация авторства для идентификации. В материалах конференции по информатике и безопасности Информатика ISI, том 3975 лекций в области компьютерных наук. Сан-Диего, Калифорния, США: Springer, 2006 . – (25-82) c.
- Ньюман Д., А. Асунсьон, П. Смит и М. Веллинг. Распределенный вывод для скрытого распределения Дирихле. Достижения в системах обработки нейронной информации, 2007. - 68 c.
- Розова С.С. Классификационная проблема в современной науке. Новосибирск: Наука. Сиб. отд-ние, 1986. - 199 с.
- Аiroldi E., Blei D., Fienbergи S., Xing E. Объединение стохастических блочных моделей и смешанного членства для статистического сетевого анализа. Статистический сетевой анализ: модели, проблемы и новые направления. 2007. - 28 c.
Оставить комментарий