インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?すべてのページを禁止することを知っています 追加できます :
User-agent: ia_archiver
Disallow: /
月に一度、または年に一度、サイトをクロールするようにボットに伝えることはできますか?
アセットが取得されないため、正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産をインターネットボットに伝える方法はありますか?
注:この回答はますます時代遅れになっています。
Internet ArchiveのWebコレクションの最大の貢献者はAlexa Internetです。 Alexaがその目的のためにクロールする資料は、数か月後にIAに寄付されました。質問で言及されている不許可ルールを追加してもクロールには影響しませんが、ウェイバックはそれらを「再帰的に」尊重します(アクセスを拒否すると、素材はアーカイブに残ります-素材を本当に保持したい場合はAlexaのロボットを除外する必要がありますインターネットアーカイブの)。
Alexaのクロールに影響を与える方法はあるかもしれませんが、私はそれをよく知りません。
IAは独自のクローラー(Heritrix)を開発してから、独自のクロールを開始しましたが、それらはターゲットクロールになりがちです(議会図書館では選挙クロールを行い、フランスやオーストラリアなどでは全国クロールを行っています)。 GoogleやAlexaが実施するような世界規模の持続的なクロールには関与しません。 IAの最大のクロールは、20億ページをクロールする特別なプロジェクトでした。
これらのクロールはプロジェクト固有の要因から派生したスケジュールで実行されるため、サイトを訪問する頻度やifサイトを訪問する頻度に影響を与えることはできません。
IAがサイトをクロールする方法とタイミングに直接影響を与える唯一の方法は、 Archive-It サービスを使用することです。このサービスでは、カスタムクロールを指定できます。結果のデータは(最終的に)IAのWebコレクションに組み込まれます。ただし、これはpaidサブスクリプションサービスです。
ほとんどの検索エンジンは「クロール遅延」ディレクティブをサポートしていますが、IAがサポートしているかどうかはわかりません。あなたもそれを試すことができます:
User-agent: ia_archiver
Crawl-delay: 3600
これにより、リクエスト間の遅延が3600秒(つまり1時間)、または1か月あたり約700リクエストに制限されます。
#2は可能だとは思わない-IAボットは、適切と判断したときに資産を取得します。あまりにも多くのストレージを使用しないように、ファイルサイズに制限がある場合があります。