Статья опубликована в рамках: IX Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 27 декабря 2017 г.)
Наука: Междисциплинарные исследования
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРОБЛЕМЫ ДЕДУПЛИКАЦИИ И ДОЛГОСРОЧНОГО ХРАНЕНИЯ ДАННЫХ В ВЕБ-АРХИВИРОВАНИИ
Термин «дедупликация» относится к устранению нескольких копий идентичного содержимого, чтобы сохранить меньшее количество копий. Он включает в себя как дедупликацию технически идентичного контента (то есть битов и байтов), так и более тонкий вид дедупликации на уровне интеллектуального контента. Дедупликация - важная проблема для веб-архивов, поскольку многократные копии идентичного контента часто собираются с разных захватов веб-сайта с течением времени. Два аспекта придают ему особое значение:
• Объем дублирования контента в среднем составляет около 25% [4], хотя это явно зависит от частоты сканирования;
• Масштабы веб-архивов и объем хранилища, необходимый для поддержки дублированного контента.
В некоторых случаях дедупликация может быть реализована до тех пор, пока не останется только одна копия файла. В других случаях может быть некоторая польза в уменьшении дублирования, оставляя в архиве более одной копии файла, но при этом уменьшая количество копий в целом. Это снижает затраты на хранение, но сохраняет минимальный уровень дублирования в качестве хорошей практики в случае последующих проблем или повреждения файлов. Де-дублирование поддерживается в формате архивного хранения WARC.
Поиск в веб-архиве отличается от поиска в Интернете [2]. В отсутствие стратегии устранения дублирования результаты поиска из веб-архива часто искажаются наличием нескольких копий одинакового контента, собранного в разных обходах. Решение этого искажения представляет собой серьезную проблему.
Процедура поиска информации в веб-архиве также отличается от поиска в сети в реальном времени, особенно в выборочных архивах. До недавнего времени было очень мало известно об оптимизации ранжирования в результатах поиска для веб-архивов [3], что затрудняло понимание пользователями новых результатов поиска и поиск соответствующего контента. Новые поисковые системы для веб-архивов каким-то образом подходят для решения этой проблемы, а операционная индексация коллекций требует очень высокого технологического уровня, такого, как ,например, в SOLR или в HIVE, которые обычно используются совместно с Hadoop, имеющим открытый исходный код, который поддерживает эффективную крупномасштабную обработку данных. В то же время, учреждения могут дать четкие указания пользователям о том, как искать их коллекции [5].
Технические подходы к долгосрочному сохранению цифровых данных направлены на решение проблемы технологического устаревания путем обеспечения надежного доступа к контенту в будущем, несмотря на изменения исходной аппаратной / программной среды. Требования к рендерингу для некоторых типов файлов относительно слабо определены - например, простые файлы HTML (файлы гипертекстовой разметки), как правило, могут быть хорошо отображены большинством браузеров, работающих на ряде аппаратно-программных платформ. Другие типы файлов в большей степени зависят от конкретной среды. В общем, чем старше файл, тем более вероятны проблемы с его точным отображением на современной вычислительной платформе. Томпсон дает отличное резюме двух основных технических проблем для долгосрочного сохранения веб-архивов [5]:
1. Явная сложность широкого диапазона форматов, опубликованных в Интернете. Они должны не только захватываться, но и обеспечивать механизм доступа к ним;
2. Сложные отношения между файлами, которые содержат веб-страницы и веб-сайты. Структурные отношения и активные связи между различными файлами и компонентами веб-страницы и веб-сайта должны быть не только захвачены и созданы для работы в независимой архивной среде, но также должны поддерживаться с течением времени. Это становится все труднее, если используется стратегия миграции и имена файлов меняются. На уровне домена это еще более сложная задача.
Стратегия миграции по запросу, в соответствии с которой специально разработанный веб-браузер автоматически переносит файлы в унаследованных форматах по запросу пользователя, может потенциально решить обе проблемы.
Исследование, недавно опубликованное британским веб-архивом, основанное на оценке формата 15-летней коллекции доменов Великобритании, собранной в интернет-архиве, предполагает, что диапазон форматов, возможно, является не такой большой проблемой, как ранее считалось, и что веб-форматы для текста и изображений могут не устаревать так быстро, как это было раньше [1]. Тем не менее, исследование также наглядно иллюстрирует, в какой степени веб-сообщество охватывает новые версии форматов и языки разметки. Способность современного веб-программного обеспечения надежно отображать старые версии существующих форматов еще не полностью оценена.
Другие инструменты, такие как PLATO и DROID, также поддерживают сохранение веб-архивов и уже использовались в небольших масштабах (Kulovits, 2009) с ожидаемыми крупномасштабными испытаниями [6]. Недавно опубликованные данные указывают, что эта процедура занимает чрезмерно много времени и, возможно, нет необходимости запускать инструменты проверки и идентификации в коллекциях уровня домена [1]. Стандарт WARC значительно улучшил поддержку долгосрочного сохранения по сравнению с его предшественником, ARC, и новый инструмент JhoNAS2 разрабатывается для содействия использованию WARC в масштабируемых рабочих процессах веб-архивации с использованием Jhove2 и NetarchiveSuite [3]. Рабочая группа по сохранению IIPC активно проводит ряд проектов, связанных с сохранением [1], включая проект WARC Tools3. Проект KEeping Emulation Portable (KEEP) разработал структуру эмуляции и услуги в Национальной библиотеке Нидерландов что может обеспечить сохранение и точный рендеринг архивных сайтов с течением времени [2]. В целом, достигнуты значительные успехи в отношении отдельных аспектов долгосрочной задачи, хотя единое решение для сохранения на протяжении всего жизненного цикла еще предстоит окончательно реализовать.
О технических долгосрочных стратегиях цифрового хранения для веб-архивов в настоящее время исследователи ведут активные дискуссии [6].
Список литературы:
- Formats Over Time: Exploring UK Web History (Jackson, A 2012) // iPres 2012 Conference proceedings. URL: http://arxiv.org/pdf/1210.1714v1.pdf (дата обращения: 21.10.2017).
- Functionalities of a Web Archives (Niu, J 2012) // DLib Magazine. URL: http://www.dlib.org/dlib/march12/niu/03niu2.html (дата обращения: 09.10.2017).
- Information Search in Web Archives PhD proposal (da Costa, M 2011) // Sobre. URL: http://sobre.arquivo.pt/sobre-o-arquivo/information-search-in-web-archives (дата обращения: 11.11.2017).
- Managing Duplicates in a Web Archive (Gomes, D et al. 2006) // 21th Annual ACM Symposium on Applied Computing. URL: http://xldb.fc.ul.pt/daniel/docs/presentations/gomes06duplicatesPPT.pdf (дата обращения: 02.10.2017).
- Tips on Finding Content in the UK Government Web Archive // National Archives (UK). URL: http://www.nationalarchives.gov.uk/documents/tips-on-finding-contentweb-archive.pdf (дата обращения: 14.10.2017).
- Web Archive Mime-Type detection workflow based on Droid and Apache Tika SCAPE (Raditsch, M 2012) // Wiki. URL: http://wiki.opf-labs.org/display/SP/SO17+Web+Archive+MimeType+detection+workflow+based+on+Droid+and+Apache+Tika (дата обращения: 17.10.2017).
дипломов
Оставить комментарий