Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXII Международной научно-практической конференции «Инновации в науке» (Россия, г. Новосибирск, 30 апреля 2014 г.)

Наука: Технические науки

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Тарануха В.Ю. ИСПОЛЬЗОВАНИЕ КОМБИНИРОВАННЫХ КРИТЕРИЕВ ДЛЯ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ЗАИМСТВОВАНИЙ // Инновации в науке: сб. ст. по матер. XXXII междунар. науч.-практ. конф. № 4(29). – Новосибирск: СибАК, 2014.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

 

ИСПОЛЬЗОВАНИЕ  КОМБИНИРОВАННЫХ  КРИТЕРИЕВ  ДЛЯ  АВТОМАТИЗИРОВАННОГО  ОПРЕДЕЛЕНИЯ  ЗАИМСТВОВАНИЙ

Тарануха  Владимир  Юрьевич

ассистент  факультета  кибернетики  Киевского  национального  университета  имени  Тараса  Шевченко,  Украина,  г.  Киев

E-mail:  taranukha@mail.ru

 

USING  COMBINED  CRITERIONS  FOR  SEMIAUTOMATIC  PLAGIARISM  DETECTION

Taranukha  Volodymyr

assistant  of  faculty  of  cybernetics,  Taras  Shevchenko  National  University  of  Kyiv,  Ukraine  Kyiv

 

АННОТАЦИЯ

Необходимо  обнаруживать  заимствования  в  текстах.  Рассмотрено  использование  комбинации  лингвистических  критериев  для  определения  заимствований.  Предложен  метод  углубленного  анализа.

ABSTRACT

It  is  necessary  to  detect  possible  plagiarism  in  texts.  Combination  of  linguistic  criterions  was  investigated  to  find  possible  plagiarism.  Method  for  deep  analysis  is  proposed.

 

Ключевые  слова:  определение  заимствований;  авторские  особенности;  структура  текста.

Keywords:  plagiarism  detection;  author  features;  text  structure.

 

Нужно  определить  элементы  текста,  которые,  возможно,  являются  заимствованными  из  других  текстов.  Кроме  того,  нужно  учитывать,  что  человек,  который  занимается  плагиатом,  скорее  всего,  внесет  в  текст  изменения  для  того,  чтобы  скрыть  факт  заимствований.  При  этом  нужно  достичь  минимизации  случаев  ложного  срабатывания.

В  исследуемом  тексте  для  подозрительного  фрагмента  можно  выделить  такие  виды  искажений:  вставка,  перестановка  и  удаление  элементов,  синтаксические  изменения,  выраженные  через  изменение  форм  слов,  стилистические  изменения,  выраженные  через  замену  синонимов,  механические  искажение  в  виде  замены  букв  на  одинаково  выглядящие  буквы  другого  алфавита.

Большинство  эффективных  систем  определения  плагиата,  как,  например,  система  Антиплагиат.Ру  [2],  основаны  на  сравнительно  простой  модели  n-грамм  [5,  с.  696].  При  использовании  n-грамм  для  определения  плагиата  искажения  с  помощью  изменения  синтаксической  структуры  требуют  дополнительных  критериев.  При  разделении  модели  n-грамм  на  две  [3,  c.  176],  можно  отслеживать  такие  изменения.  Искажения  с  подбором  синонимов  обнаруживаются  с  помощью  словаря  синонимов.  При  этом,  если  в  подозреваемом  тексте  введены  собственные  термины  (слова),  то  такое  обнаружение  усложняется.  Необходимо  указать  подозрительные  места,  для  чего  предлагается  использовать  систему  эвристического  морфо-лексического  анализа  [1,  с.  3].  Совпадающие  грамматические  признаки  и  n-граммы  сформированные  на  грамматических  классах  позволят  сформировать  гипотезы  о  заимствовании.

Вспомогательной  системой  предлагается  модуль,  выделяющий  особенности  авторского  стиля  и  места,  где  стиль  изменяется.  Желательно,  чтобы  исследуемый  элемент  стиля  трудно  поддавался  контролю.  Например,  способ  подбора  слов  при  изложении  и  сочетаемость  звучаний  слов  [4,  с.  63].  Для  устойчивой  работы  модуля  нужен  непрерывный  кусок  текста  как  минимум  10  Кб.  Хотя,  метод  не  позволяет  анализировать  маленькие  куски  текста,  на  больших  кусках  он  позволяет  обнаруживать  аномалии  для  дальнейшего  рассмотрения  оператором.

Рассмотренная  совокупность  методов  позволяет  быстро  выделять  тексты,  содержащие  сравнительно  много  грубых  заимствований.  Но,  нужно  учитывать,  что  текстуальное  совпадение  фраз  или  предложений  не  обязательно  является  плагиатом,  даже  если  такие  фразы  встречаются  в  разных  текстах  и  совпадают  дословно.  Это  может  быть  цитата,  а  не  плагиат.  В  случае  новостей  даже  полное  заимствование  будет  допустимым,  если  указано  первоисточник.  Более  того,  системы  определения  заимствований  оперируют  так  называемыми  белыми  источниками,  из  которых  заимствовать  можно.  Но,  бывает,  что  обнаруженные  совпадениям  не  входит  в  белые  источники,  но  и  плагиатом  это  не  является.  Для  анализа  таких  случаев  нужно  использовать  дополнительные  инструменты,  чтобы  определить  новизну  всего  текста,  как  новизну  выводов  и  хода  изложения. 

Текст  можно  считать  последовательностью  тематических  или  сюжетных  элементов,  при  этом  каждый  следующий  может  унаследован  от  всех  предыдущих.

Обозначим  Tk  =  Tk  (A(T),  R(T)),  где  Tk  —  отдельный  текст,  A(T)  —  множество  абзацев,  R(T)  —  отношение  следования,  определенное  на  абзацах,  и  зависящее  от  того,  как  и  какое  мнение  хотел  донести  до  читателя  автор.  Абзац  разбивается  на  совокупность  предложений,  каждое  из  которых  вводит,  уточняет  или  связывает  определенные  смыслы  a  =  ai(S(ai),  R(ai)),  где  ai  —  i-й  абзац  ,  S(ai)  —  множество  предложений  в  абзаце,  R(ai)  —  отношение  следования  определено  на  предложениях,  и  оно  зависит  от  того,  как  и  какое  мнение  хотел  донести  до  читателя  автор.  При  этом  между  предложениями  одного  абзаца  действуют  содержательные  связи  и  языковые  указатели.

Дополнительно  вводится  структура  для  предложения  для  того,  чтобы  можно  было  оперировать  словами,  si,j  =  sj(W(sj),  R(sj)),  где  s—  j-е  предложение  ,  i-го  абзаца  ,  W(sj)  —  множество  слов  в  абзаце,  R(sj)  —  множество  синтаксических  отношений  между  словами.

Возможна  ситуация,  когда  между  элементами  текста  (например,  абзацами)  отсутствует  содержательная  связность.  Это  представляется  в  виде  T  =  U  T.  Тогда  текст  анализируемого  выступает  как  совокупность  отдельных  текстов,  каждый  из  которых  имеет  свой  смысл.

Отношение  R(T)  можно  аппроксимировать,  определив  порядок.  Обозначим  G  —  исходный  текст,  из  которого  что-то  заимствовалось,  D  —  текст-цель  —  текст  к  которому  что-то  было  заимствовано.  Таким  образом,  для  того,  чтобы  абзац  в  D  приводил  к  тому  же  выводу  нужно,  чтобы  он  находился  после  тех  же  исходных  положений,  и  в  G.

Обозначим  N(a,  T)  —  функцию  ,  которая  возвращает  номер  абзаца  в  тексте.  Пусть  выполняются  условия:  a1,aє  D  ,  a1,aє  G  &  N(a1,  D)>  N(a2  D)  &  N(a1,  G)  >  N(a2  G)  =>  a1  R(D)  a2  &  a1  R(G)  a2

Отношение  R(ai)  задается  подобно  отношению  R(T).  Обозначим  a(G)  —  абзац  из  текста  Ga(D)  —  абзац  из  текста  D.  Обозначим  N(s,a)  —  функцию,  которая  возвращает  номер  предложения  в  абзаце.Тогда  слабое  отношение  определяется  как:  s1,sє  a(D),  s1,sє  a(G)  &  N(s1,a(D))>  N(s2,a(D))  &  N(s1,  a(G))>  N(s2,a(G))  =>  s1  R(a(D))s2  &  s1  R(a(G))  s2

Сильное  отношение  задается  с  учетом  сохранения  содержательных  связей  и  языковых  указателей.  Обозначим  P(s,a)  —  функцию,  которая  возвращает  предложения,  на  которые  есть  указатели.  Обозначим  Q(s,a)  —  функцию,  которая  возвращает  предложения,  с  которыми  содержательные  связи.  Тогда  сильное  отношение  задается  следующим  образом:  s1,sє  a(D),  s1,sє  a(G),  P(s1,  a(D))  U  Q(s1,  a(D))  =  P(s1,  a(G))  U  Q(s1,  a(G))  &  P(s2,  a(D))  U  Q(s2,  a(D))  =  P(s2,  a(G))  U  Q(s2,  a(G))  =>  s1  R(a(D))s2  &  s1  R(a(G))  s2

При  этом,  указатели  могут  менять  естественный  порядок  за  счет  того,  что  могут  указывать  как  назад  по  тексту,  так  и  вперед  с  перескакиванием  через  несколько  элементов.

Отношение  R(sjопределяется  аналогично.

Желательно  задавать  связь  исключительно  с  помощью  синтаксических  связей  слов  предложения,  насколько  это  позволяет  качество  синтаксического  анализатора.  Такой  подход  позволяет  гарантированно  проработать  все  возможные  корректные  перестановки  слов  в  предложении. 

Пусть  |D(a)|,  |D(s)|,  |D(w)|  —  количество  абзацев,  предложений  и  слов  в  тексте.  Тогда  можно  определить  набор  функций,  для  обнаружения  заимствованных  элементов  F1F2Fи  критерий  заимствования  F  (D,G)  такие,  что:

F=  |{  (w1,  w)w1R(s(a(D)))  w2  &  w1R(s(a(G)))  w2}|, 

F=  |{  (s1,  s)s1  R(a(D))s2  &  s1  R(a(G))  s2}|,  если  |D(s)|>1,  иначе  1. 

F3  =  |{  (a1,  a)a1,  a2  є  Da1  R(D)  a2  &  a1  R(G)  a2}|,  если  |D(a)|>1,  иначе  1. 

Тогда  можно  определить  F  (D,G)=  F*F2*  F3/  (|D(a)|^2*|  D(s)|  ^2*  |D(w)  |^2). 

Оценка  F  (T1T  2обладает  свойствами:  F  (T  1T  2)≥  0,  для  произвольных  T  1T  2И  F  (T  1T  2)  ≠  F  (T  2T  1),  кроме  случая,  T2T1.

Рассмотренный  набор  критериев  позволяет  детально  анализировать  подозрительные  тексты  и  находить  большинство  заимствований.  Для  особо  запутанных  случаев  предложена  модель  позволяющая  использовать  элементы  изложения  для  определения  подозрительности  исследуемого  текста.

 

Список  литературы:

  1. Анисимов  А.В.,  Романик  А.Н.,  Тарануха  В.Ю.  Эвристические  алгоритмы  для  определения  канонических  форм  и  грамматических  характеристик  слов  //  Кибернетика  и  Системный  Анализ.  —  2004.  —  №  2.  —  C.  3—14.
  2. Интернет-сервис  Антиплагиат.Ру  [Электронный  ресурс].  —  Режим  доступа.  —  URL:  http://www.antiplagiat.ru/  (дата  обращения:  29.04.2014) 
  3. Тарануха  В.Ю.  Застосування  класів  основаних  на  канонічних  формах  слів  та  на  граматичних  класах  в  задачі  редукції  n-грамної  моделі  мови  для  розпізнавання  української  мови  //  Вісник  Київського  національного  університету  імені  Тараса  Шевченко  Серія:  фізико-математичні  науки.  Спецвипуск.  2013.  —  с.  176—179.
  4. Тарануха  В.Ю.,  Порхун  О.В.  Автоматичне  встановлення  авторства  текстів  з  використанням  аналізу  звукової  організації  мови  //  Вісник  Київського  національного  університету  імені  Тараса  Шевченко  Серія:  фізико-математичні  науки.  —  2011.  —  Вип.  1.  —  с.  63—69.
  5. Barron-Cedeno  A.,  Rosso  P.  On  Automatic  Plagiarism  Detection  Based  on  n-grams  Comparison  //  in  Proceedings  of  31th  European  Conference  on  IR  Research,  ECIR  2009  (Toulouse,  France,  April  6—9,  2009.).  Toulouse,  2009.  —  P.  696—700.

 

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий