Google Webクローラーはどのようにしてポータルをバイパスできますか？

Question

これは私が何度も遭遇した状況です。 Googleでウェブ検索を行います。ファイル（たとえば.pdf）へのリンクをクリックすると、サーバー上のそのファイルに移動します。ブラウザで開き、ファイルを保存できます。

ただし、URLをバックトラックして、そのURLを保持しているWebサイトの詳細を確認する場合、および検索に役立つ他の情報がある場合は、アクセスが拒否されます。エラーメッセージが表示されるか、Webポータルのログインページが表示されます。これは、ディレクトリトラバーサルを防止するようにサーバーを構成することで説明できます。

Robot.txtファイルの欠如がこれに寄与する可能性があることは理解していますが、悪質なWebクローラーはとにかくファイルを無視するため、これらのサイトの一部は保護にこれらに依存しません。言うまでもなく、robot.txtは、ハッカーに対して多くのファイルとディレクトリ構造を列挙します。

したがって、これらのサイトの一部が物理的なファイアウォールで保護されていないと想定するのは多すぎます。また、サイトの他の部分への移動を拒否したサーバー認証が与えられた場合、サイトのクロールはログイン資格情報なしで実行できます。

では、可能性のあるファイアウォール、サーバー認証、ポータル保護を回避して、サーバーのディレクトリ構造を見つけ、資格情報のないユーザーがそのファイルを参照できるようにする直接リンクを作成できるようにする、Googleクローラーの悪用のループホールは何でしょうか。

Cristian Dobre · Accepted Answer

GoogleBotがディレクトリ構造への特別なアクセス権を持っていると錯覚することがありますが、それは抜け穴や脆弱性があることを意味するものではありません。

その幻想の理由のいくつか：

リンクはウェブサイトの外部からのものである可能性があります。 Pastebin.comに掲載されていないPastebinへのリンクをブログに投稿できます。
ドキュメントへのリンクが含まれているページが削除されているか非表示になっている可能性がありますが、Googleにはまだファイルへのリンクがあります。
サイトマップファイルには、そのWebサイト上のファイルへのリンクのリストを含めることができます。
ウェブサイトの所有者は、Googleウェブマスターツールを使用して、ウェブサイト上のリンクのリストを読み込むことができます。
脆弱性のほとんどではありませんが、GoogleBotはFlashリソースを逆コンパイルし、そこにあるテキストとリンクにインデックスを付けます。
また、JavaScriptを実行してAjaxコンテンツを解析することもできます。
モバイルコンテンツを検索する新しいGooglebotユーザーエージェントがあります。モバイルインターフェースの設定を誤ると、従来のものよりも多くの情報が表示され、より多くのアクセスが可能になります。
他の人がコメントしたように、訪問しているIPまたはユーザーエージェントがGooglebotを示している場合、ウェブサイトはより多くのまたは異なる詳細を提供できます。これはクロッキングと呼ばれ、Googleやその他の検索エンジンでは許容されません。

Googlebotには単純なルールがあり、リンクをたどり、robots.txtファイルとnofollowタグを尊重します。 Googleのユーザーがアクセスできる必要があり、クロールされたWebサイトのセキュリティやプライバシーを壊さないようにする必要がある情報にインデックスを付けます。それ以外のことを示すものがあれば、Googlebotの悪意や魔法ではなく、ウェブサイトの設定に誤りがあると思います。