Статья опубликована в рамках: XLII Международной научно-практической конференции «Технические науки - от теории к практике» (Россия, г. Новосибирск, 26 января 2015 г.)
Наука: Технические науки
Секция: Информатика, вычислительная техника и управление
Скачать книгу(-и): Сборник статей конференции
- Условия публикаций
- Все статьи конференции
дипломов
Статья опубликована в рамках:
Выходные данные сборника:
ОПРЕДЕЛЕНИЕ СТЕПЕНИ БЛИЗОСТИ ОБРАЗОВАТЕЛЬНЫХ СТАНДАРТОВ
Коновалов Роман Викторович
студент гр. 720-2 каф. КИБЭВС, факультета безопасности, Томского государственного университета систем управления и радиоэлектроники, РФ, г. Томск
E -mail: konovalovrv1992@gmail.com
Терентьев Денис Сергеевич
студент гр. 720-2 каф. КИБЭВС, факультета безопасности, Томского государственного университета систем управления и радиоэлектроники, РФ, г. Томск
E -mail: nicklid@mail.ru
Коновалов Евгений Викторович
инженер 2 категории, УМТС и К ООО «Газапром трансгаз Томск», РФ, г. Томск
DETERMINATION OF THE DEGREE OF CLOSENESS OF EDUCATIONAL STANDARDS
Konovalov Roman
student gr. 720-2 KIBEVS the department, Faculty of Security, Tomsk State University of Control Systems and Radioelectronics, Russia, Tomsk
Terentev Denis
student gr. 720-2 KIBEVS the department, Faculty of Security, Tomsk State University of Control Systems and Radioelectronics, Russia, Tomsk
Konovalov Evgeny
engineer 2 categories, UMTS and K Ltd. "Gazaprom Transgaz Tomsk" Russia, Tomsk
АННОТАЦИЯ
Проблема сравнения текстовой информации и выявление степени сходства является одной из наиболее важных и трудных задач анализа данных и поиска информации. Учитывать схожесть текстовых документов необходимо при разработке поисковых систем и повышения их качества за счет удаления избыточной дублирующей информации, при объединении информации в тематические группы или фильтрации необходимой информации.
ABSTRACT
The problem of comparing text and identify the degree of similarity is one of the most important and difficult tasks of data analysis and information retrieval. Take into account the similarity of text documents necessary in the development of search engines and improve their quality by removing redundant backup information by combining information in thematic groups or filtering the information you need.
Ключевые слова: учебный план; ФГОС ВПО; оценка близости текстов; компетенции; академическая справка; план учебного процесса.
Keywords: training plan; FGOS VPO; assessment proximity texts; competence; academic certificate; plan the learning process.
В данной работе ставится цель: получение оценки степени близости федеральных государственных образовательных стандартов третьего поколения.
Для достижения этой цели были поставлены задачи:
· обзор и анализ основных способов оценки близости текстовых документов;
· выбор метода для сравнения текстов;
· сравнение федеральных государственных образовательных стандартов третьего поколения.
Данная работа является актуальной в таких областях как:
· поисковые системы;
· тематический анализ;
· обработка неструктурированной информации.
Структура федерального государственного образовательного стандарта высшего профессионального образования по направлению подготовки [1]:
1. Область применения.
2. Используемые сокращения.
3. Характеристики направления подготовки.
4. Характеристика профессиональной деятельности специалистов.
5. Требования к результатам освоения основных образовательных программ (ООП).
6. Требования к структуре ООП.
7. Требования к условиям реализации ООП.
8. Оценка качества освоения ООП.
При сопоставлении двух стандартов будем рассматривать два раздела, в которые в основном раскрывают компетентностный подход: требования к результатам освоения ООП и требования к структуре ООП. В первом разделе необходимо выделить из текста и сравнить компетенции. Во втором рассматриваемом разделе необходимо сопоставить информацию, представленную в таблице «Структура ООП» [2]. В данной таблице для каждого учебного цикла необходимо выделить:
· результаты их освоения, обозначенные словами «знать», «уметь», «владеть»;
· список дисциплин;
· список формируемых компетенций.
Остальные разделы стандартов можно не рассматривать ввиду наименьшей их информативности при сопоставлении двух стандартов.
При переводе студента с одной специальности на другую или при поступлении на второе высшее образование иногда возможно перезачесть оценки по некоторым дисциплинам, уже изученным студентам. В этом случае следует сопоставить два документа:
· план учебного процесса по специальности, на которую поступает студент;
· академическую справку, предоставляемую студенту.
План учебного процесса также имеет определенную структуру. В данном документе приведены дисциплины, изучаемые в рамках данной специальности, которые сгруппированы по учебным циклам в соответствии с ФГОС ВПО, номера семестров, в которых сдаются экзамены, зачеты и выполняются курсовые работы, и количество часов, выделяемых на освоение дисциплин.
Академическая справка содержит информацию о студенте и результатах его обучения на момент выдачи справки. В справке приведен перечень дисциплин, по которым студент был аттестован за время обучения, общее количество часов, выделяемое на освоение дисциплины, и итоговая оценка.
Поиск по документу-образцу.
Целью поиска является, обнаружение тематически близких документов [5]. Самым простым подходом к решению задачи поиска документов по образцу является использование всех слов документа-образца в качестве запроса.
Общую схему поиска по документу образцу можно представить в следующем виде (рис. 1).
Рисунок 1. Поиск документов по образцу
Существует документ-образец и некоторая коллекция доступных документов. Выполняется предварительный отбор из коллекции документов, и затем для отобранных документов вычисляется тематическая близость. Вычисленные оценки тематической близости w1, …, wn используются при ранжировании документов по тематической близости к документу образцу.
Метод частотно-контекстной классификации тематики текста.
Предлагаемый подход к тематической классификации текстовой информации основывается на гипотезе о том, что словарный запас и частоты использования слов зависят от темы текста [4].
Тематическая классификация предполагает выделение множества ключевых слов, определяющих тематику текста. При этом каждому из них приписывается вес, определяющий значимость данного слова в тематике, т.е. какие-то ключевые слова играют большую роль в определении тематики, какие-то меньшую, но именно такая совокупность слов, с такой значимостью каждого из них в тематике и определяет тематическую направленность.
Такой подход обеспечивает снижение размерности за счет перехода от основного текста к его представлению в виде множества ключевых слов, приближенно описывающих его содержание. Это необходимо, прежде всего, для последующей тематической идентификации сравниваемых текстов.
Ключевые слова определяются по количеству их вхождений в текст, а именно — частота ключевых слов в тексте выше других слов.
Вспомогательные этапы обработки текста.
Удаление незначительных слов из рассматриваемых текстов в большинстве случаев является необходимым этапом предварительной обработки текста [3]. Это значительно позволяет повысить эффективность алгоритма, сравнивающего или анализирующего документы. Используются два основных подхода.
Удаление по словарю. Необходимо предварительно составить словарь так называемых стоп-слов, которые не содержат значительную информацию.
Удаление слов по частоте. Слова, имеющие наибольшую частоту появления в тексте, чаще всего относятся к союзам, предлогам и другим незначащим словам, и являются шумом при анализе текста. Необходимо определить пороговую частоту появления слов, чтобы безошибочно удалять из анализируемого текста незначащие слова.
Так же значительно повысить эффективность любого из перечисленных методов можно с помощью предварительного морфологического и синтаксического анализа. В данном случае необходимо использовать соответствующие словари или прикладные программы.
Заключение
Проведено исследование основных методов анализа и оценки близости текстов. Был проведен анализ структуры и особенностей составления федеральных государственных образовательных стандартов третьего поколения. Для сравнения текстовых фрагментов стандартов был выбран метод частотно-контекстной классификации тематики текста, для которого будет реализовано приложение. Также были рассмотрены такие документы как план учебного процесса и академическая справка.
Список литературы:
1.Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов, [Электронный ресурс] –– Режим доступа. — URL: http://citforum.ru/database/articles/kw_extraction/ (дата обращения: 18.04.2014).
2.Министерство образования и науки, [Электронный ресурс] – Режим доступа: http://mon.gov.ru/
3.Модели и методы семантического сравнения строк символов в коллекции документов, [Электронный ресурс] –– Режим доступа. — URL: http://www.dissercat.com/content/modeli-i-metody-semanticheskogo-sravneniya-strok-simvolov-v-kollektsii-dokumentov (дата обращения: 10.05.2014).
4.Моченов С.В., А.М. Бледнов, Ю.А. Луговских Применение статистических методов для семантического анализа Ижевск: НИЦ «Регулярная и хаотическая динамика», 2005.
5.Портал федеральных государственных образовательных стандартов, [Электронный ресурс] — Режим доступа. — URL: http://www.fgosvpo.ru/
дипломов
Оставить комментарий