【悪質】archive.todayのアーカイブ作成を拒否する方法

作成日時 2023/09/29 20:35
最終更新 2023/09/29 20:55

まず初めに

archive.todayは、Webアーカイブを簡単に誰でも作成できるサービスです。

Webサイトの過去の状態を記録しておきたい場合や、消えてしまったサイトを閲覧したい場合などに活用できます。

しかし、このサービスはweb.archive.orgなどの他のWebアーカイバーとは異なり、以下のような特徴があります。

・ほぼ100%、アーカイブ削除の申請を受け付けない。
・robots.txtやrobotsタグの設定を無視してアーカイブを作成する。
・生成されたアーカイブページは、検索エンジンにインデックスされる。

1つ目と2つ目の特徴は「情報の保存」という観点から保護されるべきと考えることができるものの、3つ目の特徴はサイト運営者からすると迷惑な話です。アクセス数を奪われますし、勝手にテキストが使われた挙句に広告で画面が埋められます。

そこで、本記事ではarchive.todayによるアーカイブ作成を拒否する方法をご紹介させて頂きます。

アーカイブ作成を拒否する方法

archive.todayは、しばしばサーバーのIPアドレスを変更したりドメインを移動したりするため、クローラーのIPアドレスをリスト化して拒否することは困難です。

そこで、ユーザー端末を言語設定やディスプレイ情報、WebRTCなどに基づいてスコア化し、archive.todayのクローラーを判別するスクリプト「archive-today.blocker.js」を開発してみました。

こちらのスクリプトをサイトに導入することにより、archive.todayのクローラーを自動で弾くことができます。

利用方法は簡単で、サイトのHTMLソースコードに以下の行を追加して下さい。head内がオススメです。

<script src="https://code.activetk.jp/archive-today.blocker.js" defer></script>

結果

上記のスクリプトを導入したサイトをアーカイブしようとすると、以下のような画面となります。

このように、サイトが表示される代わりにメッセージが表示されるようになります。

代替のアーカイブサービス

私は、この前(といっても中3のとき)にarchive.phの代替となる魚拓サービス「DarkWeb Archive」を開発しました。

こちらのアーカイバーでは、HTMLデータのみならずHTTPヘッダーやデータのハッシュなどが保存されるのが特徴で、「後から振り返るため」よりも「存在していた証拠として」の利用を想定しています。

また、通常のクリアネット上のサイトのみならず、onionドメインのサイトも保存できるのも特徴です。ぜひお試しください！