これは私が何度も遭遇した状況です。 Googleでウェブ検索を行います。ファイル(たとえば.pdf)へのリンクをクリックすると、サーバー上のそのファイルに移動します。ブラウザで開き、ファイルを保存できます。
ただし、URLをバックトラックして、そのURLを保持しているWebサイトの詳細を確認する場合、および検索に役立つ他の情報がある場合は、アクセスが拒否されます。エラーメッセージが表示されるか、Webポータルのログインページが表示されます。これは、ディレクトリトラバーサルを防止するようにサーバーを構成することで説明できます。
Robot.txtファイルの欠如がこれに寄与する可能性があることは理解していますが、悪質なWebクローラーはとにかくファイルを無視するため、これらのサイトの一部は保護にこれらに依存しません。言うまでもなく、robot.txtは、ハッカーに対して多くのファイルとディレクトリ構造を列挙します。
したがって、これらのサイトの一部が物理的なファイアウォールで保護されていないと想定するのは多すぎます。また、サイトの他の部分への移動を拒否したサーバー認証が与えられた場合、サイトのクロールはログイン資格情報なしで実行できます。
では、可能性のあるファイアウォール、サーバー認証、ポータル保護を回避して、サーバーのディレクトリ構造を見つけ、資格情報のないユーザーがそのファイルを参照できるようにする直接リンクを作成できるようにする、Googleクローラーの悪用のループホールは何でしょうか。
GoogleBotがディレクトリ構造への特別なアクセス権を持っていると錯覚することがありますが、それは抜け穴や脆弱性があることを意味するものではありません。
その幻想の理由のいくつか:
Googlebotには単純なルールがあり、リンクをたどり、robots.txtファイルとnofollowタグを尊重します。 Googleのユーザーがアクセスできる必要があり、クロールされたWebサイトのセキュリティやプライバシーを壊さないようにする必要がある情報にインデックスを付けます。それ以外のことを示すものがあれば、Googlebotの悪意や魔法ではなく、ウェブサイトの設定に誤りがあると思います。