Internet Archiveに保存されたアーカイブを削除する方法

robots.txtを置く方法

Internet Archiveが示しているrobots.txtの内容は次の通りです。メモ帳にこれを記述して保存し、それをアップロードしましょう。ファイル名はrobots.txtです。

User-agent: ia_archiver
Disallow: /

ただし、この方法をとってもアーカイブは削除されません。robots.txtの効果は、ただ見られなくなるだけです。この方法をとっても、robots.txtを削除するとアーカイブは再び見られるようになります。レンタルサーバのアカウントを消失したりして、アップロードしていたrobots.txtが無くなると、見られなくしていたページが再び見られるようになります(体験談。私はまさかそんな仕組みだとは思っていなくて、アカウントを自分で削除した後に狼狽した)。完全に見られなくしてもらうためには削除依頼のメールを送らなければなりません。

robots.txtを置いても、すぐに目的のページが見られなくなるわけではありません。Internet Archiveのクローラがrobots.txtを読みに来てくれないとアーカイブはそのままです。

robots.txtを置く場所

robots.txtはindex.htmlを置いている場所(一番上の階層)に置くのが普通です。ここにrobots.txtを置くとすべてのアーカイブが見られなくなります。

 public_html
 |
 ├−index.html
 ├−robots.txt(ここに置く)
 |
 ├−bookフォルダ
 | ├01.html
 | ├02.html
 | ├03.html
 | └robots.txt
 |
 └−pictureフォルダ
   ├−01.html
   ├−a.gif
   ├−b.jpg
   └−c.png

アーカイブとは関係のない話ですが、画像のExif(イグジフ)データには注意しましょう。gifとpngは大丈夫ですが、jpgにはカメラの機種や撮影日等のデータが格納されていることがあります。Exifデータはフリーソフトの「Exif Reader」や「F6 Exif」で削除できます。

フォルダやファイルの個別指定

全部を見られなくするのではなくて、一部のページだけを見られなくしたいときのrobots.txtの記述の仕方です。たとえばbookフォルダの中身だけをアーカイブされたくないときは次のように記述します。

User-agent: ia_archiver
Disallow: /book/

bookフォルダ、pictureフォルダの両方をアーカイブされたくないときは次の通りです。

User-agent: ia_archiver
Disallow: /book/
Disallow: /picture/

次はbookフォルダ内の01.htmlだけとpictureフォルダの2つをアーカイブされたくないときの記述です。

User-agent: ia_archiver
Disallow: /book/01.html
Disallow: /picture/
なぜかInternet Archiveをはじく記述

無料レンタルサーバの1つであるPF-X.NETを利用して作られたサイトは、普段はPF-X.NETがrobots.txtを置いているためにアーカイブが見られないのですが、 そのrobots.txtの内容はInternet Archiveが指定している記述とは違っています。その内容は次の通り。

User-agent: Mediapartners-Google
Disallow:

私が知っている人のサイトを例にとると俺の道がそうですね。これは何を拒否しているのかというとGoogle AdSense(インターネット広告)のクローラです。PF-X.NETは広告で利益をあげることを禁じているのでこれを置いているのでしょう。でもたまにrobots.txtの効果が無くなっていてアーカイブが見られることもあります。ネット上の評判を見てみるとPF-X.NETは不安定だという意見もあり、 きっとサーバが落ちたか何かしたときには見られることもあるということなのかもしれません。

削除依頼のメールを出す方法

私は以前、とある無料ホームページサービスを使ってホームページを作っていましたが、今はそこを引き払ってこのレンタルサーバに移りました。したがって昔のホームページのアーカイブを消したいと思っても、そのレンタルサーバ上の内容を編集することは私には出来ず、robots.txtを置く方法はもう使えません。そんなときには削除依頼のメールを出すことになります。

  • まず相手の連絡先ですが、info@archive.orgになります(メールを出すときは@は小文字にしましょう)。
  • メールの内容は英語で書きます(WEB上の翻訳サービスを使いましょう。Google翻訳など)。
そしてこれが一番難しいのですが、
  • 削除して欲しいページの管理者であったことを証明することが必要です。

私が昔使っていた「とある無料ホームページサービス」とは旧ジオシティーズのことです。 旧ジオシティーズのサービス終了に伴って、私の作っていたホームページは新ジオシティーズに移行していたのですが、 そのホームページを閉鎖する前にアカウントの方だけを消失していたので、 アカウントは持っていないけど、そのアカウントで作ったホームページは残っているという状態でした (ジオシティーズはヤフーのアカウントを消失しても、 そのアカウントで作ったホームページは残る仕組みになっています。 ホームページはホームページで別途、アカウントが有効なうちに閉鎖の手続きをしないといけません)。

そこで私は、ヤフーの人の方で何とか対応してもらってアーカイブを削除する方向に持って行ってくれないかと相談のメールを送ってみたのですが、 ヤフーはそんなことはしないんだと断られてしまいました。ほかのレンタルサーバのことは知りませんが、 レンタル元に対応してもらうことは難しいのではないかと思います。 とりあえずヤフーの人には残っていた新・旧ジオシティーズのホームページだけを削除してもらいました。

Internet Archiveに削除依頼のメールを出してアーカイブを削除してもらうと、 そのアーカイブは完全に見られなくなります。削除して欲しいページを個別に指定せず、 たとえばhttp://web.archive.org/web/*/http://pawapoke.tekito.com/* (URLの最後に*を付けると、そのアドレスに属するすべてのページが表示される) と全体を指定して削除されると、そのアドレスに属するアーカイブは、 たとえ新しく作ったページであっても、すべて見られなくなります。 既存のページが新たにアーカイブされることもありません。 もう一度アーカイブされたいと思うときは、ドメインを変えたり、別のレンタルサーバに移転するなどしてアドレスを変えるしかありません (今思えばバックアップとして使えて便利な面もあったのではないかと少々後悔しているところもあります)。

削除したいページの管理者であったことを証明する方法
  • 「移転しました」と書いて移転先にリンクを張っているページのアーカイブが残っているときは、その移転先の管理者が自分であることを相手に訴える。私はこの方法を取りました。要は移転先のページの管理者である自分は、そこに移転する前のページの管理者でもあったということです。
  • このサイトのメールアドレスは「tekito@tekito」です、みたいなことを書いているページのアーカイブが残っているときは、そのメールアドレスで削除依頼を出し、自分が管理者であったことを相手に訴える。
削除依頼のメールを出した後の相手の反応

アーカイブを削除してもらえるかどうかの対応は相手によって変わるみたいです。私は削除して欲しいページが2つあったので2つのメールを同じ文面で送ったところ、一方は削除され、もう一方は削除されずに残りました。その1か月後にもう一度、削除されなかったページの削除依頼を出したところ、その翌日に削除依頼に応じた旨のメールがあり、私が削除して欲しかったページは2つとも消えてくれました。なので削除してくれなかったときは間を空けて何度かメールを送ってみると良いのではないかと思います。もしかすると翻訳機で作った英語が通じなかっただけかもしれませんが。

ちなみに返事があるかどうかもまちまちです。私はこれまでに5回メールを送って4つのサイトのアーカイブを削除してもらったのですが、そのうちの2回は返事があって削除され、残りの2回は返事なしに削除されていました。

私が出したメールの内容
  • 英語
    Archive delete request.(メールのタイトル)

    Hello,
    I would like you to delete the following data from your archive.
    http://web.archive.org/web/*/http://pawapoke.tekito.com/*
    (URLの最後に*を付けると、そのアドレスに属するすべてのページが表示される。 この冒頭の英文についてはだいきん日記 Ver.6 @WP – googleとInternet Archiveのキャッシュ削除を参考にしました。 このページは大変参考になりますので、アーカイブを削除したい人はこのページも一緒に読んだ方が良いです)

    Please look at the http://web.archive.org/web/20040402045148/http://pawapoke.tekito.com/index.html.
    I have changed the address of my site at this time.

    About it, I wrote in Japanese to towards the top of the site.
    I was making a link to http://pawapoke.s41.xrea.com/.
    Go to http://pawapoke.s41.xrea.com/ when you click it.

    I am the administrator of http://pawapoke.s41.xrea.com/.
    In order to prove it, I have copied the contents of this e-mail.
    Please look at the http://pawapoke.s41.xrea.com/a.html.

    In other words, I am the administrator of the http://pawapoke.s41.xrea.com/,
    It is that was also the administrator of http://pawapoke.tekito.com/ prior to transfer there.

    Thank you.
  • 日本語訳
    アーカイブ削除要求。

    こんにちは、
    私はあなたのアーカイブから次のデータを削除したい。
    http://web.archive.org/web/*/http://pawapoke.tekito.com/*

    http://web.archive.org/web/20040402045148/http://pawapoke.tekito.com/index.htmlをご覧ください。
    私はこの時点で私のサイトのアドレスを変更した。

    それについて、私はサイトの上の方に日本語で書いた。
    私はhttp://pawapoke.s41.xrea.com/へのリンクを作っていた。
    あなたがそれをクリックしたときhttp://pawapoke.s41.xrea.com/に移動します。

    私はhttp://pawapoke.s41.xrea.com/の管理者です。
    それを証明するために、私はこの電子メールの内容をコピーした。
    http://pawapoke.s41.xrea.com/a.htmlをご覧ください。

    言い換えれば、http://pawapoke.s41.xrea.com/の管理者である私は、
    そこに転送する前のhttp://pawapoke.tekito.com/の管理者でもあったということです。

    ありがとう。