20.12.2019

Архив интернета что это и как им пользоваться (wayback machine)

В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.

Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет.

По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.

Многие Интернет Архивы хранят несколько версий одной и той же страницы, делая её снимок в разное время. Благодаря этому можно проследить историю изменения сайта или веб-страницы в течение всех лет существования.

В этой статье будет показано, как находить удалённую или изменённую информацию, как использовать Интернет Архивы для восстановления сайтов, отдельных страниц или файлов, а также некоторые другие случае использования.

Wayback Machine — это название одного из популярного веб архива сайтов. Иногда Wayback Machine используется как синоним «Интернет Архив».

Какие существуют веб-архивы Интернета

Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в х):

web.archive.org

Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.

Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».

Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:
В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.
Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.
Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.

Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате.

Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.

Архив Интернета что это и как им пользоваться (wayback machine)

При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:

Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:

Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/

Кроме календаря доступна следующие страницы:

Collections — коллекции. Доступны как дополнительные функции для зарегистрированных пользователей и по подписке
Changes
Summary
Site Map

Changes

«Changes» — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.
Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:

И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.

Summary

В этой вкладке статистика о количестве изменений MIME-типов.

Архив Интернета что это и как им пользоваться (wayback machine)

Site Map

Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.

Поиск по Интернет архиву

Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:

Архив Интернета что это и как им пользоваться (wayback machine)

Показ страницы на определённую дату

Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/

Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.
Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.
Адреса данного Архива Интернета:

http://archive.md
http://archive.ph/
http://archive.today/

На главной странице говорящие за себя поля:

Архивировать страницу, которая сейчас онлайн
Искать сохранённые страницы

Архив Интернета что это и как им пользоваться (wayback machine)

Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:

microsoft.com покажет снимки с хоста microsoft.com
*.microsoft.com покажет снимки с хоста microsoft.com и всех его субдоменов (например, www.microsoft.com)

Источник: https://HackWare.ru/?p=10776

Что такое веб-архив

Архив Интернета что это и как им пользоваться (wayback machine)

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Архив Интернета что это и как им пользоваться (wayback machine)

Веб-архив (Webarchive) – это бесплатная платформа, где собраны все сайты, созданные когда-либо, и на которые не наложен запрет для их сохранения.

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA
Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

История создания Internet Archive

В 1996 году Брюстер Кайл, американский программист, создал Архив Интернета, где он начал собирать копии веб-сайтов, со всей находящейся в них информацией. Это были полностью сохраненные в реальном виде страницы, как если бы вы открыли необходимый сайт в браузере.

Данными веб-архива может воспользоваться каждый желающий совершенно бесплатно. Создавая его, у Брюстера Кайла была основная цель – сохранить культурно-исторические ценности интернет-пространства и создать обширную электронную библиотеку.

В 2001 году был создан основной сервис Internet Archive Wayback Machine, который и сегодня можно найти по адресу https://archive.org. Именно здесь находятся копии всех веб-сервисов в свободном доступе для просмотра.

Чтобы не ограничиваться коллекцией сайтов, в 1999 году начали архивировать тексты, изображения, звукозаписи, видео и программные обеспечения.

В марте 2010 года, на ежегодной премии Free Software Awards, Архив Интернета был удостоен звания победителя в номинации Project of Social Benefit.

С каждым годом библиотека разрастается, и уже в августе 2016 года объем Webarchive составил 502 миллиарда копий веб-страниц. Все они хранятся на очень больших серверах в Сан-Франциско, Новой Александрии и Амстердаме.

Все про archive.org: как пользоваться сервисом и как достать сайт из веб-архива

Брюстер Кайл создал сервис Internet Archive Wayback Machine, без которого невозможно представить работу современного интернет-маркетинга. Посмотреть историю любого портала, увидеть, как выглядели определенные страницы раньше, восстановить свой старый веб-ресурс или найти нужный и интересный контент — все это можно сделать с помощью Webarchive.

Как на archive.org посмотреть историю сайта

Благодаря веб-сканеру, в библиотеке веб-архива, хранится большая часть интернет-площадок со всеми их страницами. Также, он сохраняет все его изменения. Таким образом, можно просмотреть историю любого веб-ресурса, даже если его уже давно не существует.

Для этого, необходимо зайти на https://web.archive.org/ и в поисковой строке ввести адрес веб-ресурса.

Архив Интернета что это и как им пользоваться (wayback machine)

Почему вы можете не узнать на Webarchive, как выглядел сайт раньше
Случается такое, что веб-площадка не может быть найден с помощью сервиса Internet Archive Wayback Machine. И происходит это по нескольким причинам:

правообладатель решил удалить все копии;
веб-ресурс закрыли, согласно закону о защите интеллектуальной собственности;
в корневую директорию интернет-площадки, внесен запрет через файл robots.txt

Для того, чтобы сайт в любой момент был в веб-архиве, рекомендуется принимать меры предосторожности и самостоятельно сохранять его в библиотеке Webarchive. Для этого в разделе Save Page Now введите адрес веб-ресурса, который нужно заархивировать, нажмите кнопку Save Page.

Архив Интернета что это и как им пользоваться (wayback machine)

Как недействующий сайт восстановить из веб-архива

Бывают разные ситуации, когда браузер выдает, что такого-то веб-сервиса больше нет. Но данные нужно извлечь. Поможет Webarchive.

И для этого существует два варианта. Первый подходит для старых площадок небольшого размера и хорошо проиндексированных. Просто извлеките данные нужной версии. Далее просматривается код страницы и дошлифовываются вручную ссылки. Процесс несколько трудозатратный по времени и действиям. Поэтому существует другой, более оптимальный способ.

Второй вариант идеален для тех, кто хочет сэкономить время и решить вопрос скачивания, максимально быстро и легко. Для этого нужно открыть сервис восстановления сайта из Webarchive – RoboTools. Ввести доменное имя интересующего портала и указать дату сохраненной его версии. Через некоторое время, задача будет выполнена в полном объеме, с наполнением всех страниц.

Как найти контент из веб-архива

Webarchive является замечательным источником для наполнения полноценными текстами веб-ресурсов. Есть множество площадок, которые по ряду причин прекратили свое существование, но содержат в себе полезную и нужную информацию. Которая не попадает в индексы поисковых систем, и по сути есть неповторяющейся.

Так, существует свободные домены, которые хранят много интересного материала. Все что нужно, это найти подходящее содержание, и проверить его уникальность. Это очень выгодно, как финансово – ведь не нужно будет оплачивать работу авторов, так и по времени – ведь весь контент уже написан.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива

Случаются такие ситуации, когда владелец интернет-площадки дорожит информацией, размещенной на его портале, и он не хочет, чтобы она стала доступной широкому кругу. В таких ситуациях есть один простой выход – в файле robots.txt, прописать запретную директиву для Webarchive. После этого изменения в настройках, веб-машина больше не будет создавать копии такого веб-ресурса.

Источник: https://semantica.in/blog/chto-takoe-veb-arkhiv.html

Как скачать сайт из вебархива — Бидюков Денис

Обращаю ваше внимание на то, что все операции производятся в операционной системе Ubuntu (Linux). Как все это провернуть на Windows я не знаю. Если хотите все проделать сами, а у вас Windows, то можете поставить VirtualBox, а на него установить ту же Ubuntu. И приготовьтесь к тому, что сайт будет качаться сутки или даже двое. Однажды один сайт у меня скачивался трое суток.

По сути, на текущий момент мы имеем два сервиса с архивом сайтов. Это российский сервис web-archiv.ru и зарубежный archive.org. Я скачивал сайты с обоих сервисов. Только вот в случае с первым, тут не все так просто.

Для этого был написан скрипт, который требует доработки, но поскольку мне он более не требуется, соответственно я не стал его дорабатывать.

В любом случае его вполне достаточно на то, что бы скачать страницы сайта, но приготовьтесь к ошибкам, поскольку очень велика вероятность появления непредусмотренных особенностей того или иного сайта.

Первым делом я расскажу о том, как скачать сайт с web.archive.org, поскольку это самый простой способ. Вторым способом имеет смысл воспользоваться если по каким-то причинам копия сайта на web.archive.org окажется неполной или её не окажется совсем. Но скорее всего вам вполне хватит первого способа.

Принцип работы веб-архива

Прежде чем пытаться восстанавливать сайт из веб-архива, необходимо понять принцип его работы, который является не совсем очевидным. С особенностями работы сталкиваешься только тогда, когда скачаешь архив сайта.

Вы наверняка замечали, попадая на тот или иной сайт, сообщение о том, что домен не продлен или хостинг не оплачен.

Поскольку бот, который обходит сайты и скачивает страницы, не понимает что подобная страница не является страницей сайта, он скачивает её как новую версию главной страницы сайта.

Таким образом получается если мы скачаем архив сайта, то вместо главной страницы будем иметь сообщение регистратора или хостера о том, что сайт не работает. Чтобы этого избежать, нам необходимо изучить архив сайта. Для этого потребуется просмотреть все копии и выбрать одну или несколько где на главной странице страница сайта, а не заглушка регистратора или хостера.

Качаем сайт с web.archive.org

Процесс восстановления сайта из веб-архива я покажу на примере сайта 1mds.ru. Я не знаю что это за сайт, я всего лишь знаю что у него в архиве много страниц, а это значит что сайт не только существовал, но с ним работали.

Для того, что бы открыть архив нужного сайта, нам необходимо пройти по такой вот ссылке:

http://web.archive.org/web/*/1mds.ru

На 24 ноября 2018 года, при открытии этой ссылки я обнаружил вот такую картину:

Архив Интернета что это и как им пользоваться (wayback machine)

Как видите на главной зафиксировались результаты экспериментов с программной частью. Если мы просто скачаем сайт как есть, то в качестве главной будет именно эта страница. нам необходимо избежать попадания в архив таких страниц.

Как это сделать? Довольно просто, но для начала необходимо определить когда последний раз в архив добавлялась главная страница сайта.

Для этого нам необходимо воспользоваться навигацией по архиву сайта, которая расположена вверху справа:

Архив Интернета что это и как им пользоваться (wayback machine)

Кликаем левую стрелку ибо правая все равно не активна, и кликаем до тех пор, пока не увидим главную страницу сайта. Возможно кликать придется много, бывает домены попадаются с весьма богатым прошлым. Например сайт, на примере которого я демонстрирую работу с архивом, не является исключением.

Вот мы можем видеть что 2 мая 2018-го бот обнаружил сообщение о том, что домен направлен на другой сайт:

Архив Интернета что это и как им пользоваться (wayback machine)

Классика жанра, регистрируешь домен и направляешь его на существующий дабы не тратить лимит тарифа на количество сайтов.

А до этого, 30 марта, там был вообще блог про шитье-вязание.

Архив Интернета что это и как им пользоваться (wayback machine)

Долистал я до 23 октября 2017-го и вижу уже другое содержимое:

Архив Интернета что это и как им пользоваться (wayback machine)

Тут мы видим уже материалы связанные с воспитанием ребенка. Листаем дальше, там вообще попадается период когда на домене была всего одна страница с рекламой:

Архив Интернета что это и как им пользоваться (wayback machine)

А вот с 25 апреля 2011 по 10 сентября 2013-го там был сайт связанный с рекламой. В общем нам нужно определиться какой из этих периодов мы хотим восстановить. К примеру я хочу восстановить блог про шитье-вязание. Мне необходимо найти дату его появления и дату когда этот блог был замечен там последний раз.

Я нашел последнюю дату, когда блог был на домене и скопировал ссылку из адресной строки:

http://web.archive.org/web/20180330034350/http://1mds.ru:80/

Мне нужны цифры после web/, я их выделил красным цветом. Это временная метка, когда была сделана копия. Теперь мне нужно найти первую копию блога и также скопировать из URL временную метку. Теперь у нас есть две метки с которой и до которой нам нужна копия сайта. Осталось дело за малым, установить утилиту, которая поможет нам скачать сайт. Для этого потребуется выполнить пару команд.

sudo apt install ruby
sudo gem install wayback_machine_downloader

После чего останется запустить скачивание сайта. Делается это вот такой командой:

wayback_machine_downloader -f20171223224600 -t20180330034350 1mds.ru

Таким образом мы скачаем архив с 23/12/2017 по 30/03/2018. Файлы сайта будут сохранены в домашней директории в папке «websites/1mds.ru». Теперь остается закинуть файлы на хостинг и радоваться результату.

Качаем сайт с web-arhive.ru

Это самый геморройный вариант ибо у данного сервиса нет возможности скачать сайт как у описанного выше. Соответственно пользоваться этим вариантом есть смысл пользоваться только в случае если нужно скачать сайт, которого нет на web.archive.org. Но я сомневаюсь что такое возможно. Этим вариантом я пользовался по причине того, что не знал других вариантов,а поискать поленился.

В итоге я написал скрипт, который позволяет скачать архив сайта с web-arhive.ru. Но велика вероятность того, что это будет сопровождаться ошибками, поскольку скрипт сыроват и был заточен под скачивание определенного сайта. Но на всякий случай я выложу этот скрипт.

Вот ссылка: https://yadi.sk/d/zoMRxwPoSXh0Jw

Пользоваться им довольно просто. Для запуска скачивания необходимо запустить этот скрипт все в той же командной строке, где в качестве параметра вставить ссылку на копию сайта. Должно получиться что-то типа такого:

php get_archive.php “http://web-arhive.ru/view2?time=20160320163021&url=http%3A%2F%2Fremontistroitelstvo.ru%2F”

Заходим на сайт web-arhive.ru, в строке указываем домен и жмем кнопку «Найти». Ниже должны появится года и месяцы в которых есть копии.

Архив Интернета что это и как им пользоваться (wayback machine)

Обратите внимание на то, что слева и справа от годов и месяцев есть стрелки, кликая которые можно листать колонки с годами и месяцами.

Архив Интернета что это и как им пользоваться (wayback machine)

Остается найти дату с нужной копией, скопировать ссылку из адресной строки и отдать её скрипту. Не забывает помещать ссылку в кавычки во избежание ошибок из-за наличия спецсимволов.

Мало того, что само скачивание сопровождается ошибками, более того, в выбранной копии сайта может не быть каких-то страниц и придется шерстить все копии на предмет наличия той или иной страницы.

Помощь в скачивании сайта из веб-архива

Если у вас вдруг возникли трудности в том, что бы скачать сайт, можете воспользоваться моими услугами. Буду рад помочь. Для начала заполните и отправьте форму ниже. После этого я с вами свяжусь и мы все обсудим.

Источник: https://dampi.ru/kak-skachat-sayt-iz-vebarhiva

Как сохранять страницы в архив Wayback Machine (перевод оригинальной статьи)

Многие люди проявили интерес к тому, чтобы убедиться, что машина Wayback имеет копии веб-страниц, о которых они заботятся больше всего. Эти сохраненные страницы могут быть процитированы, совместно использованы, связаны – и они будут продолжать существовать даже после изменения исходной страницы или удалены из интернета.

Существует несколько способов сохранения страниц и целых сайтов, чтобы они отображались в Wayback Machine.

1. Сохраните страницу сейчас

Скопируйте URL в форму, нажмите кнопку, и мы сохраним страницу. У вас мгновенно появится постоянный URL для вашей страницы. Обратите внимание, что этот метод сохраняет только одну страницу, а не весь сайт.

Архив Интернета что это и как им пользоваться (wayback machine)

На данный момент есть несколько исключений для этого метода – некоторые сайты запрещают обход, некоторые имеют настройки SSL, которые способствуют неправильному сохранению, но этот метод будет работать для большинства страниц. Функция сохраняет страницу, которую вы вводите, включая изображения и CSS. Она не сохраняет какие-либо внешние ссылки и не может использоваться для запуска обхода всего веб-сайта.

2. Расширения и дополнения для браузера

Установите расширение Wayback Machine в Вашем браузере (список версий для браузеров ниже). Перейдите на страницу, которую требуется архивировать, щелкните значок на панели инструментов и выберите «Сохранить страницу». WbM сохранит страницу и даст Вам постоянный URL.

Архив Интернета что это и как им пользоваться (wayback machine)

Обещанный список:

3. Wikipedia JavaScript Bookmarklet

Никто не любит primary source больше, чем редактор Википедии. С этой целью они предлагают букмарклет Wayback Machine JavaScript, который позволяет быстро сохранять веб-страницу из любого браузера.

4. Добровольцы Archive Team

Archive Team — это полностью добровольческая группа, которая заинтересована в сохранении истории интернета. Многие из сайтов и страниц, которые они сохраняют, попадают в Wayback Machine. Посетите их сайт, чтобы узнать больше о том, как «волонтёрствовать» с ними.

Архив Интернета что это и как им пользоваться (wayback machine)

Эта статья — первод оригинальной статьи

Друзья!Хотите получать деньги за ответы на опросы? Вы можете начать делать это прямо сейчас! Участвуйте в онлайн-опросах, не выходя из дома, получая при этом до 100 рублей за каждую анкету. Итак, чтобы начать:

Зарегистрируйтесь в проекте
Получите первый бонус — 50 рублей на счёт
Участвуйте в опросах
Получайте деньги за каждую анкету
Выводите заработанные деньги себе на карту, мобильный телефон, или на благотворительность

Поделитесь информацией с друзьями 😉

Источник: https://internet-b.ru/wbm-howto

Архив сайтов Internet Archive Wayback Machine

Электронный адрес – http://web.archive.org.

Каждый, кто собирал информацию по интересующей его проблеме за достаточно длительный период, знает, как порой бывает важно найти сведения, опубликованные на сайте несколько лет назад.

Иногда это просто необходимо: в частности, в случае обнаружения новых тенденций в развитии объекта, которое требует ретроспективной оценки времени их появления.

Либо возникновения новой темы для изучения событий на рынке и, как следствие, сравнения реакции на них с тем, как вели себя в подобной ситуации участники рынка в прошлом. Конечно, специалист конкурентной разведки всегда старается архивировать интересующую его информацию.

Однако в реальной жизни бывает так, что проблема просто не входила в сферу его интересов до определенного момента либо на предприятии эта служба появилась позже тех событий, которые и стали предметом ее пристального внимания.

В таком случае на помощь нередко может прийти сервис, который нам также рекомендовал Arthur Weiss. Этот Internet Archive Wayback Machine, его изображение представлено на рис. 21. Сервис позиционируется как «Библиотека Интернета».

Пауки, принадлежащие Internet Archive Wayback Machine, посещают веб-сайты и сохраняют архивную копию на сервере «библиотеки». Как написано на странице этого ресурса, интересующего нас сайта может и не оказаться в архиве.

Например, в случае если паук не может его прочитать, поскольку тот защищен одним из способов, описанных нами в соответствующем разделе данной книги.

Сервис Internet Archive Wayback Machine некоммерческий. Он работает с 1996 г.

и, как утверждают его владельцы, существует на пожертвования меценатов и благодаря технической поддержке крупных интернет-компаний, таких как Alexa. Ежемесячно архив увеличивается в объеме на 20 терабайт.

Ценным нам видится то обстоятельство, что Internet Archive Wayback Machine отслеживает копии даже тех сайтов, которых больше не существует в Сети.

Для того, чтобы увидеть сохраненную версию нужного сайта, достаточно ввести в окно, расположенное в верхней части главной страницы, адрес ресурса и нажать клавишу «Take me Back». После этого пользователю будет предложен архив по запрошенному ресурсу. В пределах этого архива можно ознакомиться с копией сайта за искомую дату. На рис. 22 показан список копий ресурса «Росбизнесконсалтинг».

Архив Интернета что это и как им пользоваться (wayback machine)

Рис. 21. Главная страница Internet Archive Wayback Machine.

Архив Интернета что это и как им пользоваться (wayback machine)

Рис. 22. Архив по сайту РБК http://rbc.ru

Архив, расположенный на сервере в Сан-Франциско, поражает своими возможностями. Вот как выглядела страница этого известнейшего интернет-ресурса 10 декабря 1997 г. (рис. 23).

Архив Интернета что это и как им пользоваться (wayback machine)

Рис. 23. Страница ресурса РБК от 10 декабря 1997 г.

Надо сказать, что, помимо функций обеспечения нужд непосредственно конкурентной разведки, наши источники рассказывали о случаях, когда этот ресурс помогал компаниям в сборе доказательств по фактам информационной войны против них. Как правило, в таких ситуациях, когда нападающая сторона «затирала» сведения на сайте, Internet Archive Wayback Machine позволял доказать факт распространения порочащих организацию данных.

Один из источников автора сообщил о факте, когда наличие копии сайта в архиве Internet Archive Wayback Machine позволило доказать в споре с контролирующими органами, что сайт, существование которого вызывало сомнения у контролеров, действительно существовал в тот период, когда компания получила деньги за его разработку и «раскрутку».

Следующая глава

Источник: https://it.wikireading.ru/13301

Посмотреть страницы в веб-архиве? Это бесплатно! Для поиска введите адрес сайта

Подробная информация о сервисе

The Wayback Machine — это архив интернета (Internet Archive). По сути это некоммерческая организация, которая была основана в 1996 году.

Задачей данной организации является сбор и хранение всевозможной публичной информации собранной из интернета: веб-страницы, электронные книги, фото- и, видео материалы. Основные сервера расположены в Сан-Франциско.

Размер архива на февраль 2017 года составляет 13 петабайт и включает в себя 525 миллиардов копий веб-страниц.

Архив Интернета что это и как им пользоваться (wayback machine)

Основателем является Брюстер Кейл, который основал организацию в 1996 году. В том же оду начал процесс по архивации веб страниц. Проект назывался Wayback Machine. По сей день сохраненные копии доступны любому пользователю посетившему сайт.

Расширение организации в 1999 году, ознаменовалось хранением не только веб-страниц, но и видео, аудио, изображения и даже программное обеспечение.

Узнать, как восстановить сайт
Основные направления работы

В интернете не существует аналогов данному проекту. База архива собиралась в общей сложности около 20 лет. При этом, можно смело заявить что проект является волантерским.

Веб-сервис по сбору и хранению веб-страниц сайтов со всем их содержимым. Фиксирует копии специальный робот. Результатом работы является возможность просмотра сайтов которых уже не существует, или не поддерживаются.

Это общественный проект по сканированию всех книг в по всему миру. Проект имеет 13 центров оцифровки оцифровки книг в крупных библиотеках. Архив книг насчитывает более 1, миллионов книг, и коллекция постоянно растет.

На сервис не единожды подавались иски в суд за нарушение авторских прав. Поэтому по требованию правообладателей архив удаляет из публичного доступа соответствующие материалы.

Открываем сайт по адресу — https://archive.org. В поле сверху вводим доменное имя. Если сайт найден, то вы увидите в первом блоке выбор года и ниже месяцы и годы. Кликнув на определенную дату, Вам откроется сохраненная копия которую вы можете просмотреть перейдя по внутренним ссылкам.

Чтобы скачать страницы сайта, Вам необходимо использовать специализированные сервисы или соответствующее программное обеспечение. В открытом доступе такого программного обеспечения нет. Мы предлагаем Вам воспользоваться услугами сервиса — WEBARCHIVEORG.RU.

Восстановленный сайт будет работать на простом движке. По качеству нет аналогов. Неограниченное количество страниц за фиксированную цену. Адекватная служба поддержки.

Подробнее о том как восстановить сайт Архив Интернета что это и как им пользоваться (wayback machine)

Источник: https://webarchiveorg.ru/

Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов

Wayback Machine – это широко известный и полезный сервис, позволяющий увидеть сайты в том виде, в котором они существовали в прошлом, но это не единственная полезная функция Wayback Machine – сервис можно использовать и в интернет-маркетинге.

1. Отслеживание изменений сайта

Это основная функция Wayback Machine. Снимки сайта (snapshots) Wayback Machine можно использовать для сравнения вида сайта в разное время, чтобы посмотреть, что изменилось.

Даже если у Wayback Machine мало снимков сайта (обычно такое случается с не очень популярными сайтами), вы все равно можете определить дату внесения изменений.

Это полезно, если вы считаете, что изменения могли быть причиной падения сайта в поисковой выдаче, посмотрите на версию страницы того времени, после которого произошло падение и узнаете, что за негативные изменения ее вызвали. Используйте эти данные, чтобы исправить проблему.

Архив Интернета что это и как им пользоваться (wayback machine)

2. Знакомство с сайтом

Когда вы работаете с новым клиентом, важно быть ознакомленным с его сайтом и разбираться в тонкостях его бренда. Wayback Machine вам в этом поможет. Вы можете посмотреть, как сайт менялся с годами и насколько изменилась политика бренда. Согласуйте с клиентом изменения: «Раньше вы утверждали одно, а теперь другое, так ведь?».

3. Поиск прежних редиректов

Один из хороших способов использовать Wayback Machine – поиск URL, на которые через какое-то время повесили редиректы.

Такое часто бывает с крупными брендами, сайты которых начинали работу в 90 или начале 2000, а потом были переделаны в соответствии с требованиями поисковых систем.

Чтобы найти более ранние версии ссылок и проверить их код состояния, используйте Wayback Machine в паре с Screaming Frog.

4. Поиск старой структуры URL

Иногда структура URL сайтов меняется, а старая теряется.

Если вы знаете приблизительную дату изменения структуры ссылки, то можете использовать Wayback Machine, чтобы выяснить, когда именно были внесены изменения и как выглядела прежняя структура.

Затем вы можете сравнить более новые версии ссылки с предыдущими. Эта функция полезна, если контент сайта был реорганизован или подразделы были переименованы.

Архив Интернета что это и как им пользоваться (wayback machine)

5. Изучение Robots.txt

Wayback Machine индексирует все, что находит на сайте, в том числе и файлы robots.txt.

И это здорово: если у вашего сайта есть технические уязвимости, вы сможете узнать, когда именно были внесены изменения в документе robots.txt, приведшие к этим уязвимостям.

Все, что надо сделать – это найти документ robots.txt и сравнивать срезы данных страниц за разные даты до тех пор, пока не найдете причину уязвимостей.

Источник: https://TexTerra.ru/blog/10-sposobov-ispolzovat-servis-wayback-machine-v-internet-marketinge.html

WayBack Machine – глобальный интернет-архив 2

Друзья, всем привет. Сегодня хочу рассказать вам о замечательном сервисе WayBack Machine – это интернет-архив с базой более 305 миллиардов сайтов и терабайтами общедоступных материалов интернета.

Здесь вы можете посмотреть на историю развития любого сайта, даже тех сайтов, которые сегодня уже не существуют, но реально работали и развивались раньше. А также вы можете найти книги, аудиозаписи, картинки фильмы прошлых лет.

Но всё на иностранных языках. Только архивы сайтов на родном языке.

Может вы ещё не совсем поняли, чем может быть полезен сервис, помимо интереса к истории развития любого сайта. Поэтому хочу поделиться небольшой историей, как сервис помог решить непростую задачу.

Ко мне обратился человек с просьбой помочь восстановить сайт организации. Из разговора я понял, что он устроился на работу, где его обязанностью было сопровождение сайта. Как выяснилось предыдущий админ уволился, на связь не выходит, по сайту оставил только логин и пароль в админку сайта и личный кабинет хостинга. Только вот сайт был удалён хостингом за неуплату. Запущенная ситуация.

Как вы понимаете, резервных копий тоже не было, а так как сайт был ещё и на бесплатном тарифе, то хостинг смог найти старенькую копию годичной давности, которая существенно отличалась от последней версии, которую помнит руководство.
Вот тут-то и пришёл на выручку сервис WayBack Machine, который помог понять, как сайт выглядел раньше и в каком направлении двигаться.
До потери сайта:
После восстановления из старой резервной копии:

Как видите, картина была печальной. Весь дизайн нарушился, тексты пропали. Я, вообще, не понял, какой толк от такой резервной копии. Но, благодаря архивной информации удалось быстро восстановить все тексты и изображения прежнего сайта, после чего восстановление прошло без проблем. Благо, сайт состоял из пару десятков страниц и обновлялся редко.

Для начала нужно открыть сервис по ссылке: https://web.archive.org, где на главной странице можно сразу приступить к поиску архивных записей или сделать архив одной страницы сайта на текущую дату.

Если вы хотите найти архивные книги, журналы и другие материалы, тогда вам нужно выбрать соответствующую иконку на панели управления.

Сервис архивирует только общедоступных сайты и материалы. Мне понравились книги из библиотек американских ВУЗов. В архив не попадают материалы и сайты, защищённые паролем, авторским правом и предназначенные для индивидуального использования.

Когда вы ввели адрес сайта в строку поиска, сервис выдаст информацию о наличии архивом за период существования сервиса и конкретного сайта.

Как видно на скриншоте, в сервисе храниться 77 архивов моего блога. Количество архивов зависит от скорости наполнения сайта. Чем чаще обновляется сайт, тем больше будет архивов. И хотя обход сайтов роботами происходит ежедневно, архивы создаются в зависимости от интенсивности изменений ресурса.

Чтобы посмотреть, как сайт выглядел на дату архивации, достаточно кликнуть на эту дату в календаре.

А вот как выглядел мой блог 01.03.2014 года. Кто помнит?

Все ссылки кликабельны, сайтом можно пользоваться полноценно. Вам будут доступны все статьи на тот момент.

Перемещаться по архиву можно с помощью панели в верхней части экрана.

Иногда архивы отрываются без картинок или с их частичным отсутствием. Это происходит потому, что картинки были защищены, выводились в ротаторе через скрипт или загружались с другого сайта.

В таком случае в сервисе могут быть отдельные архивы с картинками, ссылку на который он предложит. Если таких ссылок нет в сервисе, тогда следует открыть архив с другой датой.

Да, в архивных копиях есть погрешности, но это мелочь в сравнении с полным отсутствием ресурса и невозможностью представить, как он выглядел, или должен выглядеть.

Видеообзор интернет-архива WayBack Machine

Друзья, на сегодня всё. Ради интереса зайдите на сервис и посмотрите, как выглядел Яндекс в далёкие девяностые. Жаль, что сервис начал создавать архивы с 1996 года, но и этого вполне достаточно, чтобы увидеть, как развивались многие популярные проекты. Или использовать сервис в ситуациях, как я приводил в начале статьи.

Желаю вам удачи!

С уважением, Максим Зайцев.

Друзья, поддержите блог! Поделитесь статьёй в социальных сетях:

Источник: https://1zaicev.ru/wayback-machine/

Вайбак машины — Wayback Machine

Вайбак машина представляет собой цифровой архив в World Wide Web и другой информации о сети Интернет . Он был запущен в 2001 году Internet Archive , в некоммерческой организации , базирующейся в Сан — Франциско , Калифорния , США .

история

Интернет Архив Основатели Брюстер Кейл и Брюс Гиллиат начал Wayback Machine в 2001 году для решения проблемы содержания сайта исчезающей всякий раз , когда он получает изменить или закрыть.

Услуга позволяет пользователям просматривать заархивированные версии веб — страниц через время, что архив называет «трехмерным индексом».

Калите и Гиллиат создали машину в надежде архивировать весь Интернет и обеспечить «всеобщий доступ ко всем знаниям.»

Название Вайбак Машина было выбрано в качестве ссылки на « WABAC машину » (произносятся путь возврат ), в путешествиях во время устройство , используемых характеры мистера Пибоди и Шерман в скалистом и Bullwinkle шоу , анимационный мультфильм. В одном из сегментов компонентов мультфильма в, невероятной истории Пибодите , персонажи обычно используют машину , чтобы наблюдать, участвовать в работе и, чаще всего, изменять известные события в истории.

Вайбак машина начала архивирования кэшированные веб — страниц в 1996 году с целью создания службы общественного пять лет спустя.

С 1996 по 2001 год, информация хранилась на цифровой ленте, с Kahle иногда позволяет исследователям и ученым , чтобы подключиться к базе данных неуклюжим.

Когда архив достиг своего пятилетия в 2001 году он был открыт и открыт для публики в церемонии в Университете Калифорнии, Беркли . К тому времени Вайбака машина запущена, она уже содержит более 10 миллиардов архивированных страниц.

Сегодня, данные хранятся на большом кластере Архив Интернета о Linux узлов. Он пересмотрит и архивы новых версий сайтов по случаю (см технические подробности ниже). Сайты также могут быть захвачены вручную путем ввода веб — сайта URL в поле поиска, при условии , что сайт позволяет Вайбак Machine «ползать» это и сохранить данные.

Технические детали

Программное обеспечение было разработано , чтобы «ползать» веб и скачать все общедоступные World Wide Web — страниц, в Gopher иерархии, телеконференции (Usenet) системы доски объявлений и загружаемое программное обеспечение.

Информация , собранная этими «гусеничном» не включает в себя всю информацию , доступную в Интернете, так как большая часть данных ограничена издателем или храниться в базах данных, которые не доступны. Чтобы преодолеть противоречия в частично кэшированных сайтов, Archive-It.

org был разработан в 2005 году Internet Archive как средство позволяет учреждениям и создателям контента добровольно собирать и сохранять коллекции цифрового контента, а также создавать цифровые архивы.

Ползает, предоставлены из различных источников, некоторые импортировали из третьих сторон и других вырабатываются внутри архива. Например, обходы, предоставлены в Слоуна и Alexa , ползает в ведении IA от имени Нара и Фонда интернет — памяти , зеркала Common Crawl . В «всемирной паутине» ползет были работаю с 2010 года и захватить глобальную сеть.

Частота снимков захватов меняется на веб-сайт. Сайты в «Всемирной паутины ползет» включены в «список ползать», с сайта в архив один раз в ползать. Ползанию может занять несколько месяцев или даже лет, чтобы завершить в зависимости от размера.

Например, «Wide Crawl номер 13» начался 9 января 2015 года и завершится 11 июля 2016 года, однако, может быть несколько ползает продолжается в любое время, и сайт может быть включен более чем в один список ползать, так как часто сайт сканируется колеблется в широких пределах.

Емкость и рост

Поскольку технология развивалась в течение многих лет, емкость в Wayback Machine выросла. В 2003 году , спустя всего два года публичного доступа, Вайбак машина растет со скоростью 12 Тб / месяц.

Данные хранятся на PetaBox стеллажных систем специально созданных сотрудниками Internet Archive.

Первый 100TB стойка полностью вступила в строй в июне 2004 года, несмотря на то, что вскоре стало ясно , что они требуют гораздо больше памяти , чем это.

Internet Archive мигрировали свое настроенное архитектуру хранения данных в Sun Open Storage в 2009 году, и принимают новый центр обработки данных в Sun Modular Datacenter на Sun Microsystems в университетском городке в Калифорнии. По состоянию на 2009 г. Вайбак машина содержала приблизительно три петабайт данных и растет со скоростью 100 терабайт каждый месяц.

Новая, улучшенная версия Wayback Machine, с обновленным интерфейсом и более новым индексом архивного содержимого, был доступен для публичного тестирования в 2011 г.

В марте того же года, было сказано на форуме машины Wayback, что «Бета из новый Вайбак машина имеет более полный и актуальный индекс всех просканированных материалов в 2010 году, и по-прежнему будет регулярно обновляться.

индекс вождения классического Wayback Machine имеет только немного материала прошлого 2008 и дальнейшем индекс обновления планируются, как будет прекращено в этом году «. Кроме того, в 2011 году Internet Archive установил свою шестую пару PetaBox стоек что позволило увеличить емкость хранения в Wayback Machine в 700 терабайт.

В январе 2013 года компания объявила новаторскую веху 240 миллиардов URL. В октябре 2013 года компания объявила о «сохранить страницу» функцию , которая позволяет любому пользователю Интернета архивировать содержимое URL. Это стало угроза злоупотреблений со стороны службы для хостинга вредоносных исполняемых файлов .

По состоянию на декабрь 2014 года Вайбак машина содержала 435 миллиардов веб-страниц, почти девять петабайт данных, и растет около 20 терабайт в неделю.

По состоянию на июль 2016 года Вайбак Машина по сообщениям содержала около 15 петабайт данных.

По состоянию на сентябрь 2018 г. Вайбак машина содержала более 25 петабайт данных.

рост

В период с октября 2013 года по март 2015 года, глобальный Alexa ранг веб-сайта изменился с 163 до 208.

Вайбак Рост машины

Страницы архива (млрд)

Вайбак машина по годам
2005
2008
2012
2013
2014
2015

Политика Сайт исключение

Исторически Вайбак машина была уважала стандарт роботов исключения (robots.txt) в определении , если сайт будет просматриваться или нет; или если уже полз, если его архивы будут в открытом доступе.

Владельцы сайтов имели возможность отказаться от Wayback машины за счет использования robots.txt. Он применяется robots.txt правила задним числом; если сайт заблокирован интернет — архив, все ранее заархивированные страницы из домена сразу оказываются недоступными , а также.

Кроме того, Internet Archive заявил , что «Иногда владелец сайта свяжется с нами и задать нам прекратить сканирование или архивирование сайта. Мы выполняем эти запросы.

» Кроме того, веб — сайт говорит: «Internet Archive не заинтересован в сохранении или предоставления доступа к веб — сайтам или других интернет — документов лиц , которые не хотят , чтобы их материалы в коллекции.»

Oakland Архив Политика

Ретроактивный политик исключения Вайбака основан частично на рекомендации по управлению запросами на удаление и сохранение Архивной целостности опубликованной в Школе управления информацией и системы в Университете Калифорнии, Беркли в 2002 году, что дает владельцу веба — сайт право блокировать доступ к архивам сайта , Вайбак выполнил эту политику , чтобы избежать дорогостоящего судебного процесса.

Политика обратной силы исключения Вайбак начала расслабляться в 2017 году, когда он остановился в честь robots.txt на правительстве США и военных веб-сайтах, как для ползающих и отображения веб-страниц. По состоянию на апрель 2017 года, Вайбак игнорирование robots.txt в более широком смысле, а не только для правительственных сайтов США.

Пользы

С момента своего публичного запуска в 2001 году Вайбак машина была изучена учеными как для способов, которые он хранит и собирает данные, а также для реальных страниц, содержащихся в архиве.

По состоянию на 2013 год, ученые написали около 350 статей на Wayback Machine, в основном из области информационных технологий, библиотековедения и областей социальных наук.

Общественные науки ученые использовали Wayback Machine, чтобы проанализировать, как разработка сайтов с середины 1990-х годов до настоящего времени повлияло на рост компании.

Когда архивы Вайбак машины страницы, как правило, включает в себя большинство гиперссылок, сохраняя эти ссылки активны, когда они так же, как легко можно было бы подразделить нестабильностью Интернета. Исследователи в Индии изучали эффективность способности Wayback Machine для сохранения гиперссылок в интернет-научных публикаций и обнаружили, что он сохранил чуть более половины из них.

Журналисты используют Wayback Machine для просмотра мертвых сайтов, датированных репортажей, а также изменения содержания веб — сайта. Его содержание было использовано , чтобы держать политиков подотчетными и выставлять на поле боя ложь.

В 2014 году архивную социальные медиа страница Стрелков , сепаратистского лидера повстанцев в Украине, показал , что он хвастался своими войсками будучи сбит подозреваемом украинского военного самолета до того , как стало известно , что самолет на самом деле был гражданский Малазийский Airlines струи , после чего он удалил пост и обвинил военный Украины на Даунинг самолета. В 2017 году в марте по науке возникла из обсуждения на Reddit , что кто — то указаный посетил Archive.org и обнаружил , что все ссылки на изменения климата , были удалены с сайта Белого дома. В ответ пользователь прокомментировал, «Там должно быть марта ученых в Вашингтоне».

Кроме того, сайт активно используется для проверки, обеспечивая доступ к ссылкам и созданию контента с помощью Википедии редакторов .