私はほとんど検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgで永遠に保存したいです。したがって、私のrobots.txt
はこれで始まります:
User-agent: *
Disallow: /
今日、 archive.org によれば、ボットを許可するにはrobots.txt
に次を追加する必要があります。
User-agent: ia_archiver
Disallow:
しかし、私はすでに数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました:
User-agent: archive.org_bot
Disallow:
次に、 別のソース 上記の2つのDisallow
sに加えて、もう1つを追加する必要があると主張しています。
User-agent: ia_archiver-web.archive.org
Disallow:
ボットにサイトをアーカイブさせたくない場合は、Disallow: /
を置く必要があることに注意してください。
IAボットに変更がありましたか?もしそうなら、いつ?
推奨される方法は何ですか?現時点では3つすべてを許可し、IAが今後ボット名を再び変更しないことを期待する必要がありますか?
更新:@KevinFeganがコメントで述べているように、ドキュメントが変更されました。以下の部分では、過去(少なくとも2014年)にインターネットアーカイブがどのように処理したかについて説明します。
彼らのFAQ Wayback Machineからサイトのページを除外するにはどうすればよいですか? は ウェイバックマシンからのドキュメントの削除 、ボットがia_archiver
と呼ばれるドキュメント。
したがって、このレコードにより、ボットがサイト全体をクロールできるようになります。
User-agent: ia_archiver
Disallow:
2017年に更新
本当にブロックしたい場合は、メールを送信してください このページによる 、またはhtaccessでIPアドレスをブロックしてください。
Robots.txtのia_archiver Disallowエントリ(「/」を含む)は、説明する必要に応じて(「永久保存」するためですが、まだ公開されていません)必要があります。
少なくとも過去10年間はia_archiver Disallowエントリが存在するサイトのエントリをコメントアウトして、簡単なテストを行いました。次に、archive.org/webでサイトを検索すると、2007、2008、2009、2011、2012、2013、2014、2015、2016、2017年に収集したグラブが表示されました!つまり、Archive.orgは、この数年間、他の人が「アーカイブしない」と考えていたものを厳密に尊重することはなく、単にアーカイブされたコピーを公開していませんでした。