Работая с дропдоменами иногда появляется необходимость извлечь содержимое старого сайта из вебархива. Для этого существует много способов. Самый простой — https://archivarix.com/. Но сегодня они мне стало интересно, какие альтернативные варианты появились на текущий момент. И я задала простой Промпт для ChatGPT: как скачать сайт из web.archive.org. Публикую ответChatGPT, удалив активные ссылки на программы и сайты (вы легко можете их найти в поисковых системах просто по названию).
Во-первых, можно задать Джипити задание написать непосредственно промпт для создания промпта :). Например: Напиши мне промпт с помощью которого я смогу получить от тебя подробную инструкцию по бесплатному восстановлению сайта из вебархива.
И тогда он ответит: Вот пример промпта, который поможет тебе получить подробную инструкцию:
«Напиши подробную инструкцию по бесплатному восстановлению сайта из вебархива (Wayback Machine). Опиши все шаги: от поиска сайта в вебархиве до загрузки файлов на хостинг. Укажи инструменты и ресурсы, которые помогут автоматизировать процесс. Если есть риски или нюансы, упомяни их тоже.»
Если нужны уточнения, можно добавить детали, например:
Читайте также: Ссылки на сайт в ВК 150 постов в VK соцсигналы для сайта
- Использование определённых хостингов или CMS.
- Рекомендации по минимальным навыкам для выполнения задачи.
- Примеры инструментов для скачивания страниц.
Скажи, если нужно доработать! 😊
Так как промпт, который написал сам джипити мне не подходит, столько информаци мне не нужно, я ее знаю. Поэтому пошла другим путем и задала Джипити другое задание на несколько интераций.

Скачивание сайта из вебархива 1 вариант
Задаю вопрос ChatGPT: Требуется восстановить из вебархива сайт https://yourspine.ru/. Дата восстановления: до сентября 2023 года. Как мне это сделать наиболее простым способом? Сайт работал на вордпресс. Мне достаточно будет файла импорта статей.
1. Скачать сайт из веб-архива
Для этого можно воспользоваться инструментами, которые позволяют выгружать сайты из Wayback Machine:
Способы:
- Сервис Webrecorder:
- Позволяет записывать и скачивать страницы, открытые в Wayback Machine.
- Вы сможете скачать весь сайт или его часть в формате WARC (архивный формат).
- Программы для массового скачивания:
- Wayback Machine Downloader (платная утилита, но с пробной версией):
- Установите Wayback Machine Downloader.
- Команда для скачивания:
wayback_machine_downloader https://yourspine.ru/ --timestamp=202309
Это скачает версию сайта до сентября 2023 года.
- HTTrack Website Copier:
- HTTrack можно настроить для скачивания сайта напрямую из архива.
- Инструкция: установите программу, настройте прокси для Wayback Machine, скачайте сайт.
- Wayback Machine Downloader (платная утилита, но с пробной версией):
2. Извлечение контента
Скачанные файлы обычно представлены в виде HTML-страниц. Чтобы конвертировать их в файл импорта для WordPress:
Использование инструментов:
- WP Importer Pro (плагин для WordPress):
- Загружает статьи из HTML-файлов.
- Сохраняет их в виде WordPress-записей.
- Онлайн-конвертер HTML в WordPress WXR:
- Найдите сервисы, которые конвертируют HTML в формат WXR (например, HTML2WXR).
- Ручная обработка:
- Извлеките HTML-контент статей (текст, заголовки, изображения).
- Сформируйте XML-файл вручную или через конвертер, который поддерживает WordPress.
3. Импорт контента в WordPress
Когда у вас есть файл импорта WXR:
- Войдите в админку WordPress.
- Перейдите в Инструменты → Импорт → WordPress.
- Загрузите WXR-файл и следуйте инструкциям.
4. Рекомендации
- Если сайт небольшой, скачивайте вручную через Wayback Machine, копируя текст и медиафайлы, затем добавляйте их в WordPress.
- Если требуется автоматизация, используйте Python-скрипты или специализированные инструменты (например, Scrapy для парсинга страниц).
Скачивание сайта из вебархива 2 вариант
Усложняю задачу и задаю Джипити такой запрос:
Скачай сайт https://yourspine.ru/ из вебархива, датой восстановления от сентября 2020 до сентября 2023 года.
1. Определение доступных версий сайта
Сначала определите, какие версии сайта доступны в Wayback Machine в период с сентября 2020 года по сентябрь 2023 года:
- Перейдите на Wayback Machine.
- Используйте календарь для выбора нужных дат и посмотрите, какие версии сайта доступны в указанный период.
2. Скачивание сайта
После определения нужной версии сайта, вы можете скачать его с помощью следующих инструментов:
- Wayback Machine Downloader:
- Установите утилиту, следуя инструкциям на GitHub.
- Используйте команду:
wayback_machine_downloader https://yourspine.ru/ --from=202009 --to=202309
Это скачает все доступные версии сайта в указанный период.
- HTTrack Website Copier:
- Установите программу с официального сайта.
- Настройте прокси для работы с Wayback Machine, следуя этой инструкции.
- Скачайте сайт, указав нужные даты.
3. Извлечение контента
После скачивания сайта, вам нужно извлечь статьи и подготовить их для импорта в WordPress:
- WP Importer Pro:
- Установите плагин на ваш WordPress сайт.
- Используйте его для импорта статей из скачанных HTML-файлов.
- Ручной метод:
- Откройте скачанные HTML-файлы.
- Скопируйте содержимое статей.
- Вставьте их в новые записи в вашем WordPress сайте.
4. Импорт в WordPress
Если вы использовали WP Importer Pro, следуйте его инструкциям для импорта. Если вы копировали статьи вручную, создайте новые записи в WordPress и вставьте скопированный контент.
Скачивание сайта другим способом
Бывает, что ПК блокируются исполняемые файлы.
Задаю вопрос: HTTrack не устанавливается на мой ПК, найди ошибку.
Ответ: Чтобы помочь решить проблему с установкой HTTrack, мне нужно больше информации. Вот несколько шагов для диагностики
1. Проверьте системные требования HTTrack
Убедитесь, что ваш ПК соответствует требованиям:
- Операционная система: Windows 7, 8, 10, 11 (32/64 бит).
- Достаточно места на диске для скачивания программ и сайтов.
2. Описание проблемы
Ответь на вопросы:
- Что именно происходит при установке? (Сообщение об ошибке, зависание, прерывание процесса).
- Скачан ли установочный файл с официального сайта (HTTrack)?
- Какая версия Windows у вас установлена?
3. Попробуйте альтернативы
Если проблема в HTTrack, рассмотрите другие способы скачивания сайтов:
- Webrecorder: Записывает веб-страницы и сохраняет их в архивы.
- Wayback Machine Downloader: Можно установить через командную строку, если у вас установлен Python или Ruby.
4. Используйте Portable-версию
Иногда установка блокируется антивирусом или системными ограничениями. Попробуйте портативную версию:
- Скачайте WinHTTrack Portable.
- Распакуйте архив и запустите файл
httrack.exe
без установки.
Надеюсь мой эксперимент был вам полезен! Так за 2 часа был восстановлен сайт https://yourspine.ru/ и я получила трафиковый сайт с ИКС 20 на котором можно проставить ссылки на свои сайты и рекламу https://massazhist.ru/.