Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XXXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 28 апреля 2015 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шарыпов С.А. АВТОМАТИЗАЦИЯ КОНТЕНТНОГО РЕЙТИНГОВАНИЯ ИНТЕРНЕТ-САЙТОВ НА ОСНОВЕ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XXXI междунар. студ. науч.-практ. конф. № 4(30). URL: https://sibac.info/archive/technic/4(30).pdf (дата обращения: 28.11.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

АВТОМАТИЗАЦИЯ  КОНТЕНТНОГО  РЕЙТИНГОВАНИЯ  ИНТЕРНЕТ-САЙТОВ  НА  ОСНОВЕ  ЛИНГВИСТИЧЕСКОГО  АНАЛИЗА

Шарыпов  Сергей  Андреевич

студент,  1  курс,  ФЕНиМ,  СВГУ,  РФ,  г.  Магадан

E -mailchibisi84@gmail.com

Сироткин  Андрей  Вячеславович

научный  руководитель,  канд.  тех.  наук,  доцент,  декан  СВГУ,  РФ,  г.  Магадан

 

Лавинообразное  развитие  сети  Интернет,  источников  информации,  размещённых  в  ней  и  доступных  общественному  пользованию,  порождает  проблему  влияния  негативной,  неблагонадёжной  информации  на  сознание  членов  общества,  молодёжи,  детей  [1].  Неэффективность  запрета  доступа  на  основе  лингвистического  анализа  контента,  отсутствие  разработанных  средств  анализа  и  оценки  Интернет-ресурсов  усиливает  эту  проблему  [4].  В  то  же  время  в  обществе  (в  Российской  Федерации)  существует  ряд  критериев,  определённых  общественными  социальными  институтами  как  «ценности  общества»,  которые  позволяют  однозначно  определить,  какая  информация,  и  в  какой  степени  полезна  для  общества  [3].  Это  отмечается  различными  исследователями,  например  [2;  5].

Одним  из  решений  данной  проблемы  могло  бы  выступить  создание  автоматизированной  системы  рейтингования  Интернет-сайтов  по  обобщённому  критерию  социальной  значимости,  который  рассчитывается  на  основе  оценки  соответствия  Интернет-контента  ценностям  общества,  что  и  является  целью  данного  исследования.  Существующие  системы  рейтингования  сайтов  приведены  в  таблице  1.  Система,  разрабатываемая  в  рамках  данного  научного  исследования,  будет  обладать  своими  достоинствами  и  недостатками.  Как  одно  из  достоинств  можно  выделить  автоматический  анализ  контента  сайта.

Основываясь  на  данных  о  функциях  и  характеристиках  существующих  систем  рейтингования  можно  заметить,  что  не  у  всех  существующих  систем  рейтингования  есть  возможность  автоматического  анализа  контента  сайта.  Эти  системы  используют  для  оценки  сообщество  экспертов,  которое  может  выдавать  субъективные  оценки,  в  отличие  от  автоматического  анализа. 

Таблица  1. 

Существующие  системы  оценки  сайтов

 

Как  отмечают  эксперты,  основными  положительными  ценностями  общества  являются  :

·     Семья.

·     Религия.

·     Культура  и  традиции.

·     Профессиональная  самореализация.

·     Образование.

·     Здоровье,  спорт,  гигиена  и  здоровый  образ  жизни.

·     Гуманизм,  терпимость,  взаимопомощь.

·     Патриотизм,  доверие  к  государству.

·     Права  и  свободы.

·     Обязанности.

·     Материальное  благополучие.

·     Безопасность,  самозащита.

·     Жизненный  оптимизм,  преодоление  трудностей.

·     Любовь  к  природе.

·     Культура  взаимоотношений  между  мужчиной  и  женщиной.

Также  специалисты  выделяют  и  негативные  ценности,  противоположные  положительным:

·     Половые  отношения,  половое  поведение. 

·     Эротика  и  порнография.  Наркомания.

·     Курение. 

·     Алкоголизм.

·     Преступное  поведение.

·     Экстремизм.

·     Нетерпимость  к  представителям  других  национальностей.

·     Ненависть  к  окружающим,  жестокость.

·     Пассивность.

·     Ограниченность,  глупость,  аморальное  поведение.

·     Взяточничество,  главенство  материальных  ценностей.

Основываясь  на  данных,  полученных  в  процессе  исследования  существующих  систем  оценки  сайтов,  а  также  обосновав  постановку  задачи  исследования,  можно  сформулировать  цель  исследования  —  разработать  систему  рейтингования  сайтов,  обеспечивающую  оценку  сайтов  по  частным  критериям  и  расчет  результата  по  показателям.

В  процессе  исследования  необходимо  решить  следующие  задачи:

·     Разработать  автоматизированную  систему  сбора  и  лингвистического  анализа  информации  Интернет-ресурсов.

·     Разработать  словари  лингвистических  ключей  для  проведения  анализа  текстов.

·     Разработать  модель  для  построения  и  расчета,  как  частных  показателей,  так  и  обобщённого  рейтингового  показателя.

·     Создать  систему  критериев,  выбранных  для  анализа  источников.

·     Разработать  и  воплотить  систему  отображения  итогового  показателя  рейтинга  в  виде  Интернет-ресурса  и  программного  расширения  для  браузера.

Процесс  разработки  данной  системы  включает  следующие  этапы:

·     Разработка  системы  сбора,  хранения  и  переработки  текстов  Интернет-источников.  Разработка  словарей.

·     Разработка  математической  модели  и  методики  анализа  Интернет-контента.

·     Построение  системы  рейтингования  на  основе  частных  показателей  и  обобщённого  рейтинга  и  использованием  серверной  части  и  клиентского  расширения  Интернет-браузера.

Обилие  сайтов  в  сети  интернет  порождает  проблему  обработки  контента  сайтов  вручную,  поэтому  существует  необходимость  разработать  программные  средства  для  автоматизированной  обработки  контента  сайтов,  что  собственно  и  является  основной  задачей  исследования.  Для  решения  всех  задач  исследования  необходимо  разработать  модуль  лингвистического  анализа  контента  сайта.  Схема  программной  структуры  данного  модуля  представлена  на  рис.  1.  Модуль  лингвистического  анализа  состоит  из  следующих  компонентов:

·     Программа  «краулер».  Извлекает  содержимое  сайта

·     Программа-декодер.  Переводит  контент  сайта  в  нужную  кодировку

·     Программа-экстрактор.  Очищает  файл  контента  сайта  от  английского  текста  и  посторонних  символов.

·     Программа-анализатор.  Использует  словари  с  лингвистическими  ключами  для  анализа  контента  сайта  и  присвоение  ему  оценки  частных  и  общего  показателя.

Для  реализации  подобного  модуля  необходимо  разработать  модель  оценки  контента  сайтов.

 

Рисунок  1.  Схема  программной  структуры  модуля  лингвистического  анализа

 

Обозначим  множество  сайтов,  как  ,  где  unÎU,  nΠ ,  n-индекс  сайта.  Программа,  именуемая  «краулер»  берет  для  обработки  URL  (Universal  Resource  Locator  —  универсальный  указатель  ресурса)  каждого  сайта  un.  Также  введем  множество  лингвистических  объектов    ,  где  onÎO,  nÎ.  Краулер  извлекает  и  декодирует  содержимое  сайта,  затем  складывает  его  в  лингвистический  объект  on.

Система  строится  на  основе  программы  анализатора  и  множества  лингвистических  ключей.  Обозначим  множество  файлов  контента,  как    ,  где  cnÎC,  nÎ.  Программа-экстрактор  помещает  отфильтрованные  данные  в  файл  контента  cn.

Обозначим  множество  словарей  как    ,  каждый  элемент  которого  ,  включает  в  себя  множество  ключей    ,  где  ktÎKj,  tÎKÌKj.  Отношения  между  множествами  K  и  Q  можно  описать  следующими  выражениями  (1,2),  где  A  —  частное  множество  вхождений:

 

KjÚKj=qj                                  (1)

A m=CnÇKj                                          (2)

 

Анализатор  контента  использует  словари  qj  для  поиска  количества  вхождений  подмножества  лингвистических  ключей  Kj  в  файл  контента  сn.

Введем  множество  ценностей  ,  где  ypÎY,  ,  p  —  индекс  ценности.  Анализатор  контента  рассчитывает  оценку  контента  по  каждой  из  ценностей  yp  по  формуле(3),  где  w  —  длина  ключа  kth  —  количество  вхождений  ключа  ktlt  —  длина  ключа  ktRn,p  —  кортеж  численных  оценок  по  каждой  ценности  yp.  Для  расчета  численного  значения  частного  показателя  ценности  используется  формула  расчета  оценки,  которая  основывается  на  сумме  частных  оценок,  составленных  из  частоты  встречи  лингвистических  ключей  по  ценностям  в  контенте  сайта  и  их  пропорциональном  отношении  с  текстом  контента.  В  ходе  исследования  было  установлено,  что  данная  формула  расчета  является  наиболее  эффективной.  Зависимость  оценки  от  изменения  показателей  представлена  в  таблице  2  и  на  графике  на  рис.  2.

 

                          (3)

 

Таблица  2.

Зависимость  оценки  от  показателей

Количество  вхождений

Длина  ключа

Длина  текста

Вес  ключа

Оценка  c  учетом  длины  ключа  и  текста

5

50

500

5

12,5

5

10

500

5

2,5

5

50

100

5

62,5

5

10

100

5

12,5

10

50

500

5

25

10

10

500

5

5

5

50

500

10

25

5

10

500

10

5

5

50

100

10

125

5

10

100

10

25

10

50

500

10

50

6

10

500

10

6

 

Рисунок  2.  График  зависимости  оценки  от  показателей

 

Выражение  3  может  быть  использовано  для  построения  численного  результата  оценки  с  последующей  сверткой  частных  показателей.

 

Список  литературы:

1.Алексеева  И.Ю.  Интернет  и  проблема  субъекта  //  Влияние  Интернета  на  сознание  и  структуру  знания.  М.:  ИФ  РАН,  2004.  —  С.  24—57.

2.Барели  Д.Г.,  Исмаилов  Н.Р.,  Корниенко  М.В.,  Протопопов  А.С.,  Сироткин  А.В.  Анализ  информационных  предпочтений  молодёжи  в  сети  Интернет.  //  Северо-Восточный  научный  журнал.  —  2013,  —  №  1.  —  С.  13—17.

3.Катречко  С.Л.  Интернет  и  сознание:  к  концепции  виртуального  человека  //  Влияние  Интернета  на  сознание  и  структуру  знания.  М.:  ИФ  РАН,  2004.  —  С.  57—73.

4.Протопопов  А.С.,  Сироткин  А.В.  Техническое  решение  защиты  детей  от  интернет-угроз  в  Магадане.  Концептуальное  обоснование  //  Информационные  технологии  в  обществе,  образовании  и  науке.  Материалы  Международной  научно-практической  интернет-конференции  26—27  ноября  2013  г.  /  ответ.  ред.  Т.А.  Брачун.  Магадан  :  СВГУ,  2014.  —  С.  167—175.  ISBN  978-5-91260-125-5.

5.Сироткин  А.В.,  Брачун  Т.А.  Безопасность  человека  в  Интернете.  Магадан:  Ноосфера,  2014.  —  186  с.  ISBN  978-5-91518-027-6.

Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.