Статья опубликована в рамках: IX Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 27 декабря 2017 г.)
Наука: Междисциплинарные исследования
Скачать книгу(-и): Сборник статей конференции
дипломов
К ПРОБЛЕМЕ АУТЕНТИЧНОСТИ ИНФОРМАЦИИ ПРИ ВЕБ-АРХИВИРОВАНИИ
Как должна выглядеть аутентичная архивная версия веб-сайта? Должен ли он быть во всех существенных отношениях идентичным оригинальному «живому сайту»? Захват и предоставление идентичной копии сайта, возможно, были замечательной целью в первые дни существования Интернета, когда веб-сайты были более простыми и отображались преимущественно в виде текстов, основной целью которых было информирование пользователей [2], но по мере продвижения к более анимированному виду веб-сайтов, становится все труднее определить, что включает в себя «оригинальный сайт» и как он должен выглядеть в веб-архиве. Мало того, что разные браузеры влияют на общий внешний вид веб-сайта, но даже контент, представленный посетителю, меняется. Концепция «исходного сайта» становится несколько бессмысленной. Как можно проверить подлинность архивной версии сайта как «подлинного»? Концепция «значимых свойств» является одним из полезных способов подтверждения успеха в подходах веб-архивирования, определения ключевых аспектов исходных сайтов, касающихся контента, контекста, внешнего вида, структуры и поведения и [1] предоставляет полезное резюме важных текстовых, интерактивных, динамических и внешних характеристик веб-сайтов. Следует также рассмотреть вопрос о том, что учреждения, занимающиеся веб-архивированием, намерены зафиксировать - «намерение сохранения» - и ясно ли это намерение для владельцев и создателей веб-сайтов [4]. Оценка такого рода не проста, но позволяет организации оценивать требования к аутентичности, по которым может быть подтвержден захваченный сайт.
Валидация обычно происходит в рамках процесса обеспечения качества (QA). Руководство QA может проводиться обученным специалистом для оценки [3]:
того, что собирал сборщик информации
как архивированный веб-сайт отображается в стандартном браузере. Это гарантирует, что не только были захвачены целевые файлы, но также и то, что они воспринимаются приемлемо в соответствии с намерением сохранения, установленным собирающим учреждением.
Ручной, визуальный QA занимает много времени. Автоматизированные инструменты QA предлагают более эффективный способ одобрения обхода в очень крупной среде, хотя они не могут развиваться до уровня, соответствующего обученному человеческому глазу. В настоящее время разрабатываемые инструменты обращают внимание на ряд ключевых индикаторов, которые могут указывать на проблемы с обходом, такие как длинные URL, очевидные ошибки обхода (отмеченные в журналах обхода контента), недостающие ссылки, размер загрузки данных и неизвестные типы MIME [3].
Сайты Web 2.0 обычно богаты приложениями JavaScript, которые, могут создавать проблемы для сканирующих программ-сборщиков информации. Несмотря на то, что веб-сайты технологии Web 2.0 достаточно похожи на «традиционные» сайты, они должны быть заархивированы несколько иначе. Возможно, захват информации не так зависит от времени, как с более традиционно структурированными сайтами [9], а стандартная частота сканирования может быть уменьшена. Сбор информации сайтов-блогов схож - каждая новая запись является дополнением к сайту, а старые сообщения обычно остаются в блоге, а не перезаписываются. В руководстве JISC PoWR также указывается, что «текучесть», которая часто характеризует содержимое Web 2.0, может затруднить определение того момента, когда контент был завершен, и поэтому он готов к архивированию [7].
Сайты социальных сетей создают другую проблему. Например, Twitter - это не только твиты, но и текстовые сообщения. Таким образом, для архивирования одной страницы Twitter нужно архивировать только одну сторону разговора. Как вы устанавливаете границы для последовательной коллекции Twitter - необходимо ли все элементы веб-аккаунта Twitter использовать при создании архивной записи? Должны ли архивироваться профили пользователей, чтобы предоставить определнное количество контекстуальной информации? Учитывая важность ссылок на Twitter, должны ли все ссылки на «твиты» из целевой учетной записи быть заархивированы? Как веб-архив гарантирует временную согласованность между этими ссылками и содержанием связанного сайта, особенно с учетом очень короткого полураспада ссылки в Twitter? Настройка границ сайта социальной сети менее проста, чем может показаться на первый взгляд.
Еще одним осложнением является вопрос о разрешениях владельцев прав на информацию. Сайты Web 2.0, такие как wikis, блоги (с комментариями), сайты социальных сетей и сайты для обмена мультимедиа-информацией, как правило, содержат значительное количество контента нескольких пользователей. Для создания архивных коллекций на основе разрешений любой сайт с созданным пользователем контентом ставит перед собой задачу либо запросить лишь у владельца сайта предоставить разрешение, либо получить разрешение от всех пользователей-создателей контента. Это трудоемкая, а иногда и практически невозможная задача.
Хотя многие из этих проблем еще предстоит решить, все же, возможно, стоит попытаться захватить часть этого контента до его потери.
Список литературы:
- Data without meaning: Establishing the significant properties of digital research (Knight, G & Pennnock, M 2008) // iPres Conference proceedings. URL: http://www.significantproperties.org.uk/iPres2008- paper.pdf (дата обращения: 12.11.2017).
- IIPC Future of the Web Workshop: Introduction & Overview // IIPC. URL: http://netpreserve.org/events/dc_ga/04_Thursday/Harvesting%20the%20Future%20Web/Overvie wFutureWebWorkshop.pdf (дата обращения: 01.11.2017).
- QA Improvement in WCT (Hockx-Yu, H & Woods, T 2012) // IIPC. URL: http://netpreserve.org/events/dc_ga/03_Wednesday/WCTQAImprovement.pdf (дата обращения: 19.11.2017).
- Significance is in the Eye of the Stakeholder (Dappert, A & Farquhar, A 2009) // ECDL. URL: http://www.planets-project.eu/docs/papers/Dappert_Significant_Characteristics_ECDL2009.pdf (дата обращения: 22.10.2017).
- Tips on Finding Content in the UK Government Web Archive // National Archives (UK). URL: http://www.nationalarchives.gov.uk/documents/tips-on-finding-contentweb-archive.pdf (дата обращения: 14.10.2017).
- Tips on Finding Content in the UK Government Web Archive // National Archives (UK). URL: http://www.nationalarchives.gov.uk/documents/tips-on-finding-contentweb-archive.pdf (дата обращения: 14.10.2017).
- ULCC, University of London Computer Centre and UKOLN 2008, Preservation of Web Resources Handbook // JISC. URL: http://www.jisc.ac.uk/publications/programmerelated/2008/powrhandbook.aspx (дата обращения: 17.11.2017).
- Web Archiving (Ball, A 2010) // Digital Curation Centre. URL: http://www.dcc.ac.uk/sites/default/files/documents/reports/sarwa-v1.1.pdf (дата обращения: 14.11.2017).
- Working with the Web Curator Tool (part 2): wikis, blog post on ULCC’s (Pinsent, E 2009) // Da Blog. URL: http://dablog.ulcc.ac.uk/2009/03/10/working-with-web-curator-tool-part-2-wikis/ (дата обращения: 07.11.2017).
дипломов
Оставить комментарий