Как посмотреть то, что было удалено

Порой из-за недосмотра компании публикуют в сети то, что не планировали публиковать – ошибочные пресс-релизы, случайно опубликованную отчетность. По статистике треть негативных новостей о компаниях исчезают с исходных страниц в течение первого года – их удаляют, изменяют или скрывают от индексации. Но эту информацию в некоторых случаях можно восстановить. Сегодня расскажем про несколько несложных инструментов для того, чтобы прочитать то, что было удалено.

Wayback Machine

Многие знают этот сервис под названием Web Archive
Находится по ссылке: https://web.archive.org/

Сервис работает по принципу «машины времени», сохраняя снимки сайтов такими, какими они были в разные периоды. Это становится возможным благодаря веб-краулерам — специальным ботам, которые методично «обходят» интернет и делают скриншоты страниц. Интенсивность их визитов зависит от активности и изменяемости сайта. Популярные ресурсы с огромным трафиком роботы посещают ежедневно, чтобы не упустить важные изменения. В то же время небольшие сайты-визитки, где информация годами остается прежней, проверяются гораздо реже — обычно раз в месяц, либо когда система фиксирует на них появление новых материалов.

Главная страница Yandex, например, индексируется с 1998 года, и Web Archive неоднократно сохранял ее слепки на разные даты. Поэтому можно буквально «отмотать время назад» и посмотреть, как выглядел сайт много лет назад. Например, вот так сайт выглядел в 2020 году:

А вот так – в 2011:

А вот 2000 год:

Но есть и более серьезные применения сервиса. Архивные копии нередко оказываются полезны и в более серьёзных ситуациях. Часто журналисты и специалисты по расследованиям используют веб-архивы для проверки заявлений компаний и публичных лиц. Если сегодня на сайте говорится одно, а год назад там была совсем другая информация, архив позволяет это легко увидеть. Именно поэтому веб-архивы используют даже в судебных разбирательствах, когда нужно подтвердить, что определённая информация действительно была опубликована в интернете в конкретный момент времени. Правда, она уже может быть изъята, и тогда вы увидите вот такую картину:

Кстати, информация вполне может быть удалена без санкции владельцев площадки. Дело в том, что в октябре 2024 года некоммерческая организация «Машина в прошлое» столкнулась с серией кибератак, которые привели к временному отключению сервиса и утечке данных.
Злоумышленники похитили базу данных объемом 6,4 ГБ, содержащую сведения о 31 миллионе пользователей, включая адреса электронной почты, экранные имена и хеши паролей. Что неудивительно, так как сервис сохраняет не только сайты, но и разные базы, статьи, фото и видео.

На веб-архиве есть не все, потому что не все сайты разрешают сами себя индексировать. Однако правила индексации периодически меняются, и некоторые сайты утекают в руки веб-архивов потому, что не успевают перестроиться. А во-вторых он сотрудничает с кучей организаций, например, он получает контент у разных национальных проектов, университетов и поисковых систем. Важную роль в наполнении архива играют и сами пользователи, которые могут вручную инициировать сохранение конкретной страницы через функцию «Save Page Now» на сайте Wayback Machine.

Если у вас появится желание поучаствовать в развитии проекта, это можно сделать, сохранив страницу вручную. Для этого достаточно вставить её адрес в поле «Save Page Now» на сайте архива или добавить префикс web.archive.org/save/ перед нужной ссылкой в браузере. А вот удаление происходит через официальный запрос на почту info@archive.org, в котором владелец сайта должен подтвердить свои права на домен и попросить скрыть накопленные копии из публичного доступа.

Артефакты в поисковых системах

Самый популярный совет, как посмотреть удаленную страницу в интернете, звучит так: “идите в кэш браузера”. Этот совет – уже давно нерабочий. Поисковые системы давно не кэшируют контент. Дело в том, что раньше интернет-соединение было нестабильно и данные кэшировались, чтобы было, что показать пользователю даже в отсутствие связи с сайтом. В начале 2000-х это было действительно полезно: по данным исследований сетевой инфраструктуры того времени, заметная доля веб-страниц загружалась с ошибками или вообще была недоступна в момент запроса, поэтому поисковики показывали сохранённую копию страницы прямо из своей базы.

Однако современная сеть превратилась в конструкцию, где стабильность возведена в абсолют. Благодаря развитию CDN-сетей, которые мгновенно дублируют контент на тысячи серверов по всему миру, доступность сайтов стала почти идеальной, и необходимость в публичном «запасном выходе» отпала сама собой. Поэтому в 2023 году Google окончательно отправил функцию кэширования на свалку истории.

Сегодня работает только локальное кэширование, то есть расширения для браузера или специальные инструменты, которые пользователь устанавливает самостоятельно и которые сохраняют страницы на его собственном устройстве.
Таким является, например, SingleFile – расширение для локального сохранения страниц, которое сохраняет полностью всю страницу в один файл. Нюанс один: вам надо сделать это заранее, чтобы в будущем вернуться к сохраненному вами слепку. Или же вам может пригодиться Readeck, который работает по принципу «прочитать позже». Он вытягивает из статьи только суть — текст и важные изображения, — сохраняя их в чистом, читаемом виде в личной базе.

Причина в том, как работает индексация сайтов. Крупные ресурсы – новостные порталы, популярные блоги, интернет-магазины – поисковые системы обходят очень часто. Роботы могут проверять такие сайты несколько раз в день, потому что там регулярно появляется новый контент. Но для небольших сайтов такой частый обход просто не нужен. Если сайт редко обновляется, поисковый робот может заходить туда раз в несколько недель или даже реже. Иногда новый обход происходит только после того, как сам сайт отправит поисковой системе сигнал об обновлении.

В результате между обновлением страницы и обновлением поискового индекса возникает временной разрыв от нескольких дней до нескольких недель. В этот период в результатах поиска ещё показывается старый фрагмент текста — тот, который был на странице во время последнего обхода робота. Поэтому можно увидеть кусочки информации, которые уже удалены с сайта.

Поиск таких следов называется доркингом. Суть метода в том, что поисковый запрос меняется специальным образом, чтобы поисковая система подсвечивала определённые типы данных: тексты, документы, параметры страниц или служебные элементы сайтов. По сути это работа с самим индексом поисковой системы. Этим активно пользуются специалисты по OSINT, чтобы искать открытые резервные копии сайтов, документы с конфиденциальными данными или служебные панели администрирования, случайно попавшие в поисковый индекс. Сегодня тысячи подобных файлов ежегодно обнаруживаются именно через поисковые запросы, а не через взлом систем.

Большинство, слыша про дорки, считают, что они применимы только в Google, меньшая часть знает, что дорки существуют для всех популярных поисковых систем. И лишь малая часть знает, что дорки можно использовать и в других системах, например в Tor или Википедии. Вот несколько ссылок на дорки для популярных ресурсов, которые собраны самими пользователями:

Shodan Dorks github.com/blaCCkHatHacEEkr/PENTESTING-BIBLE/blob/master/1-part-100-article/google/Shodan%20Queries.txt
DuckDuckGo Dorks github.com/d34dfr4m3/goDuck
Google Dorks github.com/BullsEye0/google_dork_list
Onion Dorks github.com/cipher387/Dorks-collections-list/blob/main/onion.txt
LinkedIn Dorks github.com/krlabs/linkedin-dorks
Wikipedia github.com/Proviesec/google-dorks/blob/main/google-dorks-for-wikipedia.txt

Базы данных нейросетей

Ещё один неожиданный способ посмотреть следы удалённого контента – большие языковые модели вроде ChatGPT. Такие модели работают на основе огромного блока текстов, на котором были обучены. По сути это слепок интернета, сделанный в определённый момент времени. Если прямо спросить у бота, когда он был обучен, он обычно честно сообщает, до какого периода у него есть данные.

Однако для нас в этом есть и плюс. Если модель обучалась, например, на данных до 2024 года, а интересующая вас публикация исчезла из интернета в 2025-м, нейросеть может всё ещё «помнить» её содержание. Примеры использования моделей как архивов:

Если с сайта СМИ была удалена резонансная статья или колонка, модель может воспроизвести её содержание или подробный пересказ, если она обучалась на этом источнике.
В случае закрытия open-source проекта или удаления старых веток документации, модели (например, GitHub Copilot или ChatGPT) продолжают выдавать синтаксис и примеры кода, основываясь на данных, которые больше недоступны в GitHub-репозиториях.
При ребрендинге или ликвидации фирм их миссии, описания продуктов и FAQ часто исчезают. Модель может восстановить эти сведения, если они входили в обучающую выборку до момента закрытия бизнеса.
Если из Википедии или специализированных энциклопедий были удалены статьи по юридическим или политическим причинам, модель, обученная на старых дампах, сохраняет доступ к этой информации.

Способность больших языковых моделей к генерации текста имеет обратную сторону — склонность к «галлюцинациям». Когда в обучающей выборке образуется лакуна или данные противоречивы, нейросеть не сообщает об ошибке, а конструирует наиболее статистически вероятное продолжение фразы. В профессиональной среде это называют галлюцинациями модели. Проще говоря, нейросеть стремится дать ответ, который статистически выглядит наиболее убедительным и ожидаемым в разговоре. По данным исследований ряда университетов, современные модели могут ошибаться или придумывать детали в заметной доле сложных запросов. Исследование BBC подтверждает масштаб проблемы: в 45% случаев ИИ допускает ошибки, при этом почти в каждом третьем случае (31%) модель опирается на полностью сфабрикованные источники данных.

Как посмотреть то, что было удалено

Wayback Machine

Артефакты в поисковых системах

Базы данных нейросетей

Смотрите также