Статья опубликована в рамках: CXXXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 09 ноября 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Шишкин М.А. МЕТОДЫ ОБРАБОТКИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXXI междунар. студ. науч.-практ. конф. № 11(129). URL: https://sibac.info/archive/technic/11(129).pdf (дата обращения: 19.03.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

МЕТОДЫ ОБРАБОТКИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Шишкин Максим Андреевич

студент, Математическое моделирование, численные методы и комплексы программ, Нижневартовский государственный университет,

РФ, г. Нижневартовск

NATURAL LANGUAGE TEXT PROCESSING METHODS

Maxim Shishkin

student, Mathematical modeling, numerical methods and software packages, Nizhnevartovsk State University,

Russia, Nizhnevartovsk

АННОТАЦИЯ

Целью данной статьи является рассмотрение методов обработки текста на естественном языке. Существует большое количество целей, для которых нужно обработать текст, например, понять настроение текста или классифицировать его под определенную категорию. Для решения определенной задачи разрабатывается отдельный метод по обработке текстовых данных.

ABSTRACT

The purpose of this article is to consider the methods of text processing in natural language. There are a large number of purposes for which you need to process the text, for example, to understand the mood of the text or classify it under a certain category. To solve a specific problem, a separate method for processing text data is being developed.

Ключевые слова: методология, интерпретация, анализ, естественный язык, обработка данных, лемматизация.

Keywords: methodology, interpretation, analysis, natural language, data processing, lemmatization.

Чтение и обработка естественного языка, расшифровка входных текстовых данных специальными алгоритмами произвела революционный прорыв в анализе данных во всех отраслях деятельности. Правильное использование методов обработки естественного языка может определить успех любого бизнеса на востребованном современном рынке. В статье выделяются 7 основных методов обработки текста на естественном языке.

Рисунок 1. Универсальная схема обработки естественного языка

Анализ тональности текста

Данный метод используется для определения эмоциональной направленности текста или некоторых его частей, являются ли они положительными, нейтральными или отрицательными. Анализатор отмечает каждое утверждение «настроением», после чего агрегирует сумму всех утверждений в текущем наборе данных. Используя такой метод, можно преобразовывать объемные архивы рецензий, сообщений или отзывов в действенные количественные результаты, которые можно будет использовать для дальнейшей обработки. Например, полученные результаты могут быть проанализированы для получения информации о клиентах и прогнозирования будущих результатов. [1]

Обобщение текста

Обобщение текста – это преобразование жаргонов в текстах научного, медицинского, технического или иного характера на самые простые термины с использованием обработки естественного языка, чтобы сделать текст более понятным. Применяя базовые алгоритмы связывания существительных и глаголов, программное обеспечение для составления обобщенного текста может быстро синтезировать сложный язык для получения краткого и понятного вывода.

Распознавание именованных сущностей

Распознавание именованных сущностей – это метод обработки естественного языка, который помечает так называемые "сущности" в тексте и извлекает их для последующего анализа. Метод немного схож с анализом настроений. Он помечает важные идентификаторы, такие как названия организаций, геолокацию, имена собственные и т.д., и подсчитывает, сколько раз они встретились в текущем наборе данных.

Извлечение ключевых слов

Извлечение ключевых слов – является более широкой формой методов по обработке текста. По определению, извлечение ключевых слов – это автоматизированный процесс извлечения наиболее релевантной информации из текста с использованием искусственного интеллекта и алгоритмов машинного обучения. Данный метод также используется при классификации интентов, то есть намерений пользователя, где в предложении ищется ключевое слово, классифицируя его под определенную категорию намерений. [4]

Тематическое моделирование

Тематическое моделирование – это неконтролируемый метод обработки естественного языка, который использует программы искусственного интеллекта для пометки и группировки текстовых кластеров, имеющих общие темы. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора может либо задаваться на входе, либо определяться моделью автоматически. [3]

Классификация текстов

Классификация текста – это упорядочивание больших объемов необработанных текстовых данных. Тематическое моделирование, анализ настроений и извлечение ключевых слов считаются подмножествами классификации текста. Классификация текста использует набор текстовых данных, а затем структурирует его для дальнейшего анализа. Он часто используется для извлечения полезных данных, например, из отзывов клиентов, а также журналов обслуживания клиентов. [2]

Лемматизация и стемминг

Лемматизация и стемминг относятся к разбивке, тегированию и реструктуризации текстовых данных на основе корневой основы, либо окончания. Оба процесса сортировки могут предоставлять разные ценные данные. Стемминг представляет собой алгоритмы по усечению окончаний. Также существует более продвинутый алгоритм, который использует рекурсию для урезания более сложных конструкций. В свою очередь метод Лемматизации выполняет обратное преобразование: заменяет грамматическое окончание суффиксом или окончанием начальной формы. Также лемматизация включает определение части речи слова и применение различных правил нормализации для каждой части речи. Определение части речи происходит до нахождения основы, поскольку для некоторых языков правила стемминга зависят от части речи данного слова. [3]

Рисунок 2. Лингвистический процессор

Заключение

Были рассмотрены основные методы распознавания текста на естественном языке, среди которых были методы распознавания тональности, обобщения текста, именованных сущностей, ключевых слов, тематического моделирования, классификации текста, лемматизации и стемминга. Каждый из них выполняет свою конкретную роль при обработке текста, возвращая полезные данные, используемые для прогнозирования, статистики, а также повышения эффективности работы бизнес-моделей, использующие перечисленные методы.

Список литературы:

Бердюкова С.С. Исследование применения сверточных нейронных сетей для анализа тональности текста / С.С. Бердюкова, И.А. Коломойцева // Современные Информационные Технологии в Образовании и Научных Исследованиях – 7-ая международная научно-техническая конференция (СИТОНИ-2021) – С. 378-383.
Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. Т. 30. № 1. С. 85–99; DOI: 10.15827/0236-235X.030.1.085-099.
Седова А.Г. Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции // Компьютерная лингвистика и вычислительные онтологии. 2018. DOI: 10.17586/2541-9781-2017-1-132-144.
Большакова Е.И. Автоматическая обработка текстов на естественном языке и анализ данных // 2017. Издательство НИУ ВШЭ; ISBN: 978-5-9909752-1-7.