
나무가 숲에 떨어지면 정말 소리가나요? 그리고 웹 사이트 가 밤새 변경 되면 이전 홈페이지가 처음부터 실제로 존재 했습니까? 우리 세상의 많은 부분이 점점 디지털화되고 덧 없어지기 때문에 이것은 단순한 철학적 질문이 아니라 단순한 역사 문제이기도합니다. 그렇기 때문에 웹 사이트가 노화되고 변화함에 따라 스냅 샷을 제공하는 Wayback Machine이 웹의 먼지가 많은 구석을 매우 흥미롭게 엿볼 수있는 이유입니다.
Wayback Machine은 시간에 따라 영구적으로 손실 될 웹 페이지를 보존하기위한 대규모 디지털 아카이브입니다. 이러한 데이터가 없으면 페이지가 업데이트되거나 삭제 될 때마다 페이지가 전혀없는 것처럼 사라집니다.
웹 페이지의 평균 수명 은 약 100 일 이라고 Wayback Machine의 이사 인 Mark Graham은 2016 년 기업가 기사에서 언급했습니다. 이러한 웹 페이지가 사라지는 데에는 여러 가지 이유가 있습니다. 사이트 제작자는 다른 프로젝트로 이동합니다. 웹 호스팅 회사가 파산합니다. 또는 페이지가 이동되거나 새 데이터 및 콘텐츠로 대체 될 수 있습니다.
웨이 백 머신이 시작된 방법
뒤로 기계는 또한 설립 브루스터 카일과 브루스 길리 엇의 발명품 인 인터넷 아카이브 , 웹 사이트, 책, 오디오 및 비디오 녹음 및 소프트웨어 프로그램의 디지털 라이브러리를. 두 프로젝트 모두 샌프란시스코에 기반을 둔 비영리 단체입니다. Wayback Machine은 인터넷 아카이브의 프로젝트입니다. (Kahle과 Gilliat도 웹 트래픽 패턴을 분석하는 Alexa Internet을 만들어 아마존에 판매했습니다.)
Graham은 최근 이메일 인터뷰에서 "그들 [Kahle과 Gilliat]은 1996 년에 웹 페이지를 보관하기 시작했으며 2001 년에는 보관 된 웹 리소스의 검색 및 재생을 지원하기 위해 Wayback Machine을 출시했습니다."라고 말합니다. "그리고 그 이름은 1960 년대 만화 시리즈 'The Rocky and Bullwinkle Show'에서 영감을 받았습니다. 만화에서 WABAC 기계 (철자 차이에 유의)는 인류 역사의 중요한 사건을 방문하기 위해 시간을 거슬러 올라가는 캐릭터 Mr. Peabody와 Sherman을 전송하는 데 사용되는 음모 장치였습니다. "
웹 사이트 수가 17 억 개가 넘고 날이 갈수록 그 수가 급격히 증가 하는 세상에서 어떻게 이렇게 많은 웹 페이지를 분류 할 수 있을까요? Wayback Machine은 웹을 통해 자동으로 이동하는 소프트웨어 유형 인 "크롤러"를 사용하여 수십억 사이트의 스냅 샷을 찍습니다. 프로세스 중 일부는 자동화되어 있지만 대부분의 요청은 사서 네트워크에 의해 수동으로 생성됩니다. 사서 네트워크는 후손과 미래 세대를 위해 보존해야한다고 생각하는 특정 유형의 사이트에 우선 순위를 둡니다.
크롤러는 사이트의 모든 반복을 캡처하지 않습니다. 스냅 샷 빈도는 사이트의 중요도에 따라 다릅니다. 매우 중요한 사이트는 몇 시간마다 기록 될 수 있습니다. 다른 것들은 몇 주 또는 몇 달 간격으로 기록 될 수 있습니다. 대부분은 전혀 기록되지 않습니다 (그러니 걱정하지 마세요. 고등학교 때 만든 당황스러운 팬 웹 사이트는 아마도 오래 전에 사라 졌을 것입니다). Wayback Machine 은 주요 미디어 회사에서 만든 속보 헤드 라인 과 같은 중요한 콘텐츠의 스냅 샷을 캡처하는 것을 목표로합니다 .
또한 전체 사이트를 반드시 다시 생성 할 필요는 없으며 브라우저에서 경험하는 방식으로 데이터를 보존하지도 않습니다. 일부 페이지의 이미지 몇 개만 캡처 할 수 있으며 도메인 외부의 다른 사이트에 링크 된 콘텐츠는 보존하지 않습니다.
웨이 백 머신 사용
웹 페이지의 링크를 클릭하고 "404"또는 "페이지를 찾을 수 없음"표기법을받은 경험이있을 것입니다. 이제 원래 페이지에 무엇이 있었는지 궁금합니다. 그것이 Wayback Machine이 도울 수있는 곳입니다.
Wayback Machine을 사용하려면 https://archive.org/web/으로 이동하세요. "검색 기록"검색 창에 조사하려는 사이트의 URL을 입력합니다. 우리는 우리가 좋아하는 웹 사이트 https://www.howstuffworks.com/을 예제로 사용할 것입니다. 결과에서 특정 연도에 사이트가 크롤링 (및 저장) 된 횟수를 보여주는 시간순 막대 그래프가 표시됩니다.

연도를 클릭하면 다양한 날짜가 강조 표시된 12 개월 달력이 표시됩니다. 파란색 하이라이트는 사이트가 제대로 저장되었음을 의미합니다. 빨간색은 그렇지 않았 음을 의미합니다. 강조 표시된 날짜 중 하나를 클릭하면 사이트의 스냅 샷이 나타납니다. 그 스냅 샷 중 하나를 클릭하면 그와 마찬가지로 이전 버전의 사이트로 시간을 거슬러 올라갑니다.
특정 사이트가 아카이브에 기록되도록하려면 수동으로 수행 할 수 있습니다. 지금 페이지 저장 옵션을 사용하여 특정 페이지를 한 번 저장하십시오. 그러나 이렇게하면 해당 페이지 (전체 웹 사이트가 아님) 만 저장되며 향후 사이트가 크롤링된다는 보장은 없습니다.
또한 콘텐츠 소유자가 자신의 자료를 Wayback Machine에서 제외하려는 경우 [email protected]로 이메일을 보내 요청을 제출할 수 있습니다.
Wayback Machine 홈페이지 상단의 "Internet Archive"옆에있는 아이콘을 클릭하여 책, 비디오, 오디오 녹음 및 소프트웨어 프로그램을 검색 할 수도 있습니다. 항목에 따라 영구적으로 다운로드하거나 일정 기간 대여 할 수 있습니다. 고급 검색 기능 도 사용할 수 있습니다.
웨이 백 머신의 미래
Graham은 Wayback Machine에 대한 가장 놀라운 점은 그것이 전혀 존재하고, 소규모 팀과 예산을 감안할 때 얼마나 많은 공용 웹을 보존 할 수 있다는 것입니다. (그들은 자원 봉사자를 사용합니다 .)
"더 많은 지원을 통해 우리는 더 많은 공용 웹을 백업하는 [심지어] 더 나은 작업을 수행 할 수 있습니다."라고 그는 말합니다. "인터넷 아카이브를위한 기금은 구독 기반 웹 아카이브 서비스 인 Archive-It.org , 주요 기부자 및 재단 의 '근로 소득' 과 10 만 명 이상의 개인 기부자의 기부에서 비롯됩니다. 우리의 서비스를 포기하고 웹 페이지에 광고를 게재하지 않습니다. "
그는 Wayback Machine이 앞으로 더욱 중요해질 것이라고 확신합니다.
"사람들이 정보를 전달하고 공유하는 방식의 특성이 진화함에 따라 우리는 가능한 한 많은 공개 정보를 보존하기 위해 최선을 다하기 위해 기술, 프로세스 및 파트너십을 구축해야합니다."라고 그는 말합니다. "모두가 '웹을 더욱 유용하고 신뢰할 수있게 만드는 데 도움이되는'Wayback Machine의 사명을 지원하고, 특히 언론인, 활동가, 학계, 역사, 연구자 및 일반 대중을 지원합니다."
편집자 주 :이 기사의 13 번째 단락은 Wayback Machine 직원의 요청으로 업데이트되었습니다.
지금 그것은 흥미 롭다
Mark Graham은 Wikipedia 기사에서 참조 된 1,100 만 개 이상의 웹 페이지가 수년 동안 불량 상태가되었다고 말합니다 (즉, 이제 404 또는 "페이지를 찾을 수 없음"을 반환합니다). Wayback Machine에 보관되어 있었기 때문에 기술자들은 위키 백과 페이지를 편집 할 수 있었기 때문에 참조는 이제 사라진 URL의 보관 된 버전을 가리 킵니다.