ActiveTK's Note

【悪質】archive.todayのアーカイブ作成を拒否する方法


作成日時 2023/09/29 20:35
最終更新 2023/09/29 20:55


  • まず初めに
  • アーカイブ作成を拒否する方法
  • 結果
  • 代替のアーカイブサービス

  • まず初めに

    archive.todayは、Webアーカイブを簡単に誰でも作成できるサービスです。

    Webサイトの過去の状態を記録しておきたい場合や、消えてしまったサイトを閲覧したい場合などに活用できます。

    しかし、このサービスはweb.archive.orgなどの他のWebアーカイバーとは異なり、以下のような特徴があります。


    ・ほぼ100%、アーカイブ削除の申請を受け付けない。
    ・robots.txtやrobotsタグの設定を無視してアーカイブを作成する。
    ・生成されたアーカイブページは、検索エンジンにインデックスされる。


    1つ目と2つ目の特徴は「情報の保存」という観点から保護されるべきと考えることができるものの、3つ目の特徴はサイト運営者からすると迷惑な話です。アクセス数を奪われますし、勝手にテキストが使われた挙句に広告で画面が埋められます。

    そこで、本記事ではarchive.todayによるアーカイブ作成を拒否する方法をご紹介させて頂きます。


    アーカイブ作成を拒否する方法

    archive.todayは、しばしばサーバーのIPアドレスを変更したりドメインを移動したりするため、クローラーのIPアドレスをリスト化して拒否することは困難です。

    そこで、ユーザー端末を言語設定やディスプレイ情報、WebRTCなどに基づいてスコア化し、archive.todayのクローラーを判別するスクリプト「archive-today.blocker.js」を開発してみました。

    こちらのスクリプトをサイトに導入することにより、archive.todayのクローラーを自動で弾くことができます。

    利用方法は簡単で、サイトのHTMLソースコードに以下の行を追加して下さい。head内がオススメです。

    <script src="https://code.activetk.jp/archive-today.blocker.js" defer></script>

    結果

    上記のスクリプトを導入したサイトをアーカイブしようとすると、以下のような画面となります。


    このように、サイトが表示される代わりにメッセージが表示されるようになります。


    代替のアーカイブサービス

    私は、この前(といっても中3のとき)にarchive.phの代替となる魚拓サービス「DarkWeb Archive」を開発しました。

    DarkWeb Archive - ActiveTK.jp

    こちらのアーカイバーでは、HTMLデータのみならずHTTPヘッダーやデータのハッシュなどが保存されるのが特徴で、「後から振り返るため」よりも「存在していた証拠として」の利用を想定しています。

    また、通常のクリアネット上のサイトのみならず、onionドメインのサイトも保存できるのも特徴です。ぜひお試しください!