Порой из-за недосмотра компании публикуют в сети то, что не планировали публиковать – ошибочные пресс-релизы, случайно опубликованную отчетность. По статистике треть негативных новостей о компаниях исчезают с исходных страниц в течение первого года – их удаляют, изменяют или скрывают от индексации. Но эту информацию в некоторых случаях можно восстановить. Сегодня расскажем про несколько несложных инструментов для того, чтобы прочитать то, что было удалено.
Многие знают этот сервис под названием Web Archive
Находится по ссылке: https://web.archive.org/
Сервис работает по принципу «машины времени», сохраняя снимки сайтов такими, какими они были в разные периоды. Это становится возможным благодаря веб-краулерам — специальным ботам, которые методично «обходят» интернет и делают скриншоты страниц. Интенсивность их визитов зависит от активности и изменяемости сайта. Популярные ресурсы с огромным трафиком роботы посещают ежедневно, чтобы не упустить важные изменения. В то же время небольшие сайты-визитки, где информация годами остается прежней, проверяются гораздо реже — обычно раз в месяц, либо когда система фиксирует на них появление новых материалов.
Главная страница Yandex, например, индексируется с 1998 года, и Web Archive неоднократно сохранял ее слепки на разные даты. Поэтому можно буквально «отмотать время назад» и посмотреть, как выглядел сайт много лет назад. Например, вот так сайт выглядел в 2020 году:
А вот так – в 2011:
А вот 2000 год:
Но есть и более серьезные применения сервиса. Архивные копии нередко оказываются полезны и в более серьёзных ситуациях. Часто журналисты и специалисты по расследованиям используют веб-архивы для проверки заявлений компаний и публичных лиц. Если сегодня на сайте говорится одно, а год назад там была совсем другая информация, архив позволяет это легко увидеть. Именно поэтому веб-архивы используют даже в судебных разбирательствах, когда нужно подтвердить, что определённая информация действительно была опубликована в интернете в конкретный момент времени. Правда, она уже может быть изъята, и тогда вы увидите вот такую картину:
Кстати, информация вполне может быть удалена без санкции владельцев площадки. Дело в том, что в октябре 2024 года некоммерческая организация «Машина в прошлое» столкнулась с серией кибератак, которые привели к временному отключению сервиса и утечке данных.
Злоумышленники похитили базу данных объемом 6,4 ГБ, содержащую сведения о 31 миллионе пользователей, включая адреса электронной почты, экранные имена и хеши паролей. Что неудивительно, так как сервис сохраняет не только сайты, но и разные базы, статьи, фото и видео.
На веб-архиве есть не все, потому что не все сайты разрешают сами себя индексировать. Однако правила индексации периодически меняются, и некоторые сайты утекают в руки веб-архивов потому, что не успевают перестроиться. А во-вторых он сотрудничает с кучей организаций, например, он получает контент у разных национальных проектов, университетов и поисковых систем. Важную роль в наполнении архива играют и сами пользователи, которые могут вручную инициировать сохранение конкретной страницы через функцию «Save Page Now» на сайте Wayback Machine.
Если у вас появится желание поучаствовать в развитии проекта, это можно сделать, сохранив страницу вручную. Для этого достаточно вставить её адрес в поле «Save Page Now» на сайте архива или добавить префикс web.archive.org/save/ перед нужной ссылкой в браузере. А вот удаление происходит через официальный запрос на почту info@archive.org, в котором владелец сайта должен подтвердить свои права на домен и попросить скрыть накопленные копии из публичного доступа.
Самый популярный совет, как посмотреть удаленную страницу в интернете, звучит так: “идите в кэш браузера”. Этот совет – уже давно нерабочий. Поисковые системы давно не кэшируют контент. Дело в том, что раньше интернет-соединение было нестабильно и данные кэшировались, чтобы было, что показать пользователю даже в отсутствие связи с сайтом. В начале 2000-х это было действительно полезно: по данным исследований сетевой инфраструктуры того времени, заметная доля веб-страниц загружалась с ошибками или вообще была недоступна в момент запроса, поэтому поисковики показывали сохранённую копию страницы прямо из своей базы.
Однако современная сеть превратилась в конструкцию, где стабильность возведена в абсолют. Благодаря развитию CDN-сетей, которые мгновенно дублируют контент на тысячи серверов по всему миру, доступность сайтов стала почти идеальной, и необходимость в публичном «запасном выходе» отпала сама собой. Поэтому в 2023 году Google окончательно отправил функцию кэширования на свалку истории.
Сегодня работает только локальное кэширование, то есть расширения для браузера или специальные инструменты, которые пользователь устанавливает самостоятельно и которые сохраняют страницы на его собственном устройстве.
Таким является, например, SingleFile – расширение для локального сохранения страниц, которое сохраняет полностью всю страницу в один файл. Нюанс один: вам надо сделать это заранее, чтобы в будущем вернуться к сохраненному вами слепку. Или же вам может пригодиться Readeck, который работает по принципу «прочитать позже». Он вытягивает из статьи только суть — текст и важные изображения, — сохраняя их в чистом, читаемом виде в личной базе.
Причина в том, как работает индексация сайтов. Крупные ресурсы – новостные порталы, популярные блоги, интернет-магазины – поисковые системы обходят очень часто. Роботы могут проверять такие сайты несколько раз в день, потому что там регулярно появляется новый контент. Но для небольших сайтов такой частый обход просто не нужен. Если сайт редко обновляется, поисковый робот может заходить туда раз в несколько недель или даже реже. Иногда новый обход происходит только после того, как сам сайт отправит поисковой системе сигнал об обновлении.
В результате между обновлением страницы и обновлением поискового индекса возникает временной разрыв от нескольких дней до нескольких недель. В этот период в результатах поиска ещё показывается старый фрагмент текста — тот, который был на странице во время последнего обхода робота. Поэтому можно увидеть кусочки информации, которые уже удалены с сайта.
Поиск таких следов называется доркингом. Суть метода в том, что поисковый запрос меняется специальным образом, чтобы поисковая система подсвечивала определённые типы данных: тексты, документы, параметры страниц или служебные элементы сайтов. По сути это работа с самим индексом поисковой системы. Этим активно пользуются специалисты по OSINT, чтобы искать открытые резервные копии сайтов, документы с конфиденциальными данными или служебные панели администрирования, случайно попавшие в поисковый индекс. Сегодня тысячи подобных файлов ежегодно обнаруживаются именно через поисковые запросы, а не через взлом систем.
Большинство, слыша про дорки, считают, что они применимы только в Google, меньшая часть знает, что дорки существуют для всех популярных поисковых систем. И лишь малая часть знает, что дорки можно использовать и в других системах, например в Tor или Википедии. Вот несколько ссылок на дорки для популярных ресурсов, которые собраны самими пользователями:
Ещё один неожиданный способ посмотреть следы удалённого контента – большие языковые модели вроде ChatGPT. Такие модели работают на основе огромного блока текстов, на котором были обучены. По сути это слепок интернета, сделанный в определённый момент времени. Если прямо спросить у бота, когда он был обучен, он обычно честно сообщает, до какого периода у него есть данные.
Однако для нас в этом есть и плюс. Если модель обучалась, например, на данных до 2024 года, а интересующая вас публикация исчезла из интернета в 2025-м, нейросеть может всё ещё «помнить» её содержание. Примеры использования моделей как архивов:
Способность больших языковых моделей к генерации текста имеет обратную сторону — склонность к «галлюцинациям». Когда в обучающей выборке образуется лакуна или данные противоречивы, нейросеть не сообщает об ошибке, а конструирует наиболее статистически вероятное продолжение фразы. В профессиональной среде это называют галлюцинациями модели. Проще говоря, нейросеть стремится дать ответ, который статистически выглядит наиболее убедительным и ожидаемым в разговоре. По данным исследований ряда университетов, современные модели могут ошибаться или придумывать детали в заметной доле сложных запросов. Исследование BBC подтверждает масштаб проблемы: в 45% случаев ИИ допускает ошибки, при этом почти в каждом третьем случае (31%) модель опирается на полностью сфабрикованные источники данных.