
Если дерево падает в лесу, действительно ли оно издает звук? И если веб-сайт меняется в одночасье, действительно ли существовала его предыдущая домашняя страница? Поскольку большая часть нашего мира становится все более цифровым - и эфемерным - это не просто философский вопрос, это еще и простой вопрос истории. Вот почему Wayback Machine, которая показывает снимки веб-сайтов по мере их старения и изменения, является таким увлекательным взглядом на пыльные уголки Интернета.
Wayback Machine - это огромный цифровой архив, предназначенный для хранения веб-страниц, которые в противном случае были бы навсегда потеряны во времени. Без этого накопления данных каждый раз, когда страница обновлялась или удалялась, она просто исчезала, как будто ее никогда не было.
Средняя продолжительность жизни веб-страницы составляет около 100 дней , отметил в статье Entrepreneur Марк Грэм, директор Wayback Machine. Есть множество причин, по которым эти веб-страницы исчезают. Создатели сайта переходят к другим проектам. Компании веб-хостинга разоряются. Или, может быть, страница перемещена или заменена новыми данными и контентом.
Как началась работа Wayback Machine
Вайбак машина является детищем Брюстер Кейл и Брюс Гиллиат, который также основал интернет - архив , цифровая библиотека веб - сайтов, книг, аудио- и видеозаписей и программного обеспечения. Оба проекта - некоммерческие организации из Сан-Франциско. The Wayback Machine - проект Интернет-архива. (Кале и Гиллиат также создали Alexa Internet, которая анализирует шаблоны веб-трафика, и была продана Amazon.)
«Они [Кале и Гиллиат] начали архивировать веб-страницы в 1996 году, а в 2001 году запустили Wayback Machine для поддержки обнаружения и воспроизведения этих заархивированных веб-ресурсов», - сказал Грэм в недавнем интервью по электронной почте. «И да, название было навеяно мультсериалом 1960-х годов« Шоу Рокки и Буллвинкла ». В мультфильме WABAC Machine (обратите внимание на разницу в написании) была сюжетным устройством, используемым для переноса персонажей мистера Пибоди и Шермана назад во времени, чтобы посетить важные события в истории человечества ».
В мире, где существует более 1,7 миллиарда веб-сайтов, и их количество с каждым днем резко растет , как можно надеяться каталогизировать такое количество веб-страниц? Wayback Machine использует так называемые «сканеры», тип программного обеспечения, которое автоматически перемещается по сети, делая снимки миллиардов сайтов по ходу работы. Часть процесса автоматизирована, но многие запросы генерируются вручную сетью библиотекарей, которые отдают приоритет определенным типам сайтов, которые, по их мнению, важно сохранить для потомков и будущих поколений.
Сканеры не захватывают каждую итерацию сайтов. Частота создания снимков зависит от важности сайта - очень важные сайты могут записываться каждые несколько часов. Другие могут регистрироваться с разницей в недели или месяцы. Большинство из них вообще не регистрируются (так что не волнуйтесь, тот смущающий фан-сайт, который вы создали в старшей школе, вероятно, уже давно исчез). Wayback Machine нацелена на создание снимков важного контента, скажем, заголовков последних новостей, созданных крупными медиа-компаниями.
Кроме того, он не обязательно воссоздает весь сайт, и он не сохраняет данные в том виде, в каком вы бы это видели в своем браузере. Он может захватывать только несколько изображений нескольких страниц и не сохранять контент, связанный с другими сайтами за пределами домена.
Использование Wayback Machine
Вероятно, у вас был опыт нажатия на ссылку на веб-странице и получение отметки «404» или «страница не найдена». Теперь вам интересно, что было на странице изначально. Вот где может помочь Wayback Machine.
Чтобы использовать Wayback Machine , перейдите на https://archive.org/web/. Введите URL-адрес сайта, который вы хотите исследовать, в строке поиска «Обзор истории». В качестве примера мы воспользуемся нашим любимым веб-сайтом https://www.howstuffworks.com/. В результате вы увидите хронологическую гистограмму, которая показывает, сколько раз сайт сканировался (и сохранялся) в течение данного года.

Щелкните год и ниже вы увидите 12-месячный календарь с различными выделенными датами. Синее выделение означает, что сайт был сохранен правильно; красный означает, что этого не было. Щелкните одну из выделенных дат, и появятся снимки сайта. Нажмите на один из этих снимков и - вот так - вы вернулись во времени на старую версию сайта.
Если вы хотите убедиться, что определенный сайт записан в архив, вы можете сделать это вручную. Используйте параметр «Сохранить страницу сейчас», чтобы сохранить определенную страницу один раз, но помните, что при этом сохраняется только эта страница (а не весь веб-сайт), и это не гарантирует, что сайт будет сканироваться в будущем.
И, если владельцы контента хотят, чтобы их материалы были исключены из Wayback Machine, они могут отправить запрос, отправив электронное письмо по адресу [email protected].
Вы также можете искать книги, видео, аудиозаписи и программы, нажимая на значки в верхней части домашней страницы Wayback Machine, рядом со словами «Интернет-архив». Их можно загрузить на постоянной основе или взять на время, в зависимости от элемента. Также доступны расширенные функции поиска .
Будущее Wayback Machine
Грэм говорит, что самое удивительное в Wayback Machine - это то, что она вообще существует и какую часть общедоступной сети она способна сохранить, учитывая, что у нее небольшая команда и бюджет. (Они также используют добровольцев .)
«При большей поддержке мы можем [даже] лучше выполнять резервное копирование большего количества общедоступных веб-сайтов», - говорит он. «Финансирование Интернет-архива осуществляется за счет комбинации« заработанного дохода »от нашей службы архивирования в Интернете, Archive-It.org , основных доноров и фондов, а также взносов более 100 000 индивидуальных доноров. Нам нравится быть может предоставлять наши услуги и не размещать рекламу на наших веб-страницах ".
Он уверен, что Wayback Machine станет еще более важной в будущем.
«По мере развития характера того, как люди общаются и обмениваются информацией, нам также необходимо будет создавать технологии, процессы и партнерские отношения, чтобы продолжать делать все возможное, чтобы сохранить как можно больше этой общедоступной информации», - говорит он. «Все в поддержку миссии Wayback Machine« Помочь сделать Интернет более полезным и надежным »и, в частности, помочь поддержать журналистов, активистов, ученых, историков, исследователей и широкую общественность».
Примечание редактора: 13-й абзац этой статьи был обновлен по просьбе сотрудников Wayback Machine.
ЭТО ИНТЕРЕСНО
Марк Грэм говорит, что более 11 миллионов веб-страниц, на которые есть ссылки в статьях Википедии, испортились за эти годы (другими словами, теперь они возвращают 404 или «Страница не найдена»). Поскольку они были заархивированы в Wayback Machine, технические специалисты могли редактировать эти страницы Википедии, поэтому ссылки теперь указывают на заархивированные версии этих несуществующих URL-адресов.