検索エンジンが暗いWebに到達できないのはなぜですか？

Question

Google、Yahoo、Bingなどの検索エンジンがダークウェブにアクセスしてコンテンツをアーカイブし、結果に表示できないのはなぜですか？

forest · Answer

あなたがTorの隠しサービスについて話していると仮定すると、答えは彼らはできるですが、間接的にのみです。非表示のサービスへのゲートウェイを提供するさまざまな「ポータル」サイトがあります。これらのゲートウェイは通常のドメインを持つ通常のWebサイトですが、tor2webソフトウェアを実行しています。これは、Torクライアントを使用して、非TorユーザーとTorユーザー間のトラフィックを中継します（ただし、匿名性は提供されません）。これらは自由にインデックスを付けることができます。

Tor隠しサービスが頻繁にインデックス化されない理由はいくつかあります：

他の誰かが以前に指摘したように、それは非常にバラバラです。相互にリンクしているサイトはほとんどないため、クローラーが新しいサイトや新しいページを見つけることができません。 90年代のオープンインターネットのようなものです。
独自のプロトコルを使用しているため、ポータル/ゲートウェイサイトがないと接続できません。通常のブラウザで.onionドメインに接続してみてください。解決されないこともわかります。
そこに隠されたサービスはそれほど多くありません。「vast」であるという神話は、用語の誤解に基づいて、根拠のないものです。実際には、かなり小さいです。
一部のサイトは法的な理由でポータル/ゲートウェイサイトによってブロックされているため、Torプロトコルを使用してのみアクセスできます。検索エンジンクローラーはこれを使用しないため、サイトにアクセスできません。

通常のドメイン（ルートネームサーバー）のように、隠しサービスの単一の「データベース」はありません。非表示のサービスは、サーバーの公開鍵のエンコードされた切り捨てられたハッシュに基づいています。クライアントはサービスのドメイン名を使用して、非公開サービスのdescriptorを半公開データベースで検索します。半公開データベースには、公開鍵と紹介ポイントのリストが含まれています（リレーはサーバー）。クライアントはランダムなリレーをRendezvous Pointとして選択し、そのリレーのIDを紹介ポイント経由で隠しサービスに送信します。次に、サーバーとクライアントは、独自の3ホップ回線を介してランデブーポイントを介して出会います。

したがって、クライアントとサーバーは、複雑なプロトコルを通じて、実際のIPを明らかにする必要なく、接続を形成することができます。ドメインが解決するIPアドレスがないため、通常の検索エンジンは標準のHTTPとTCP/IPを使用してアドレスに到達できません。検索エンジンクローラーがこれらのサイトに接続するには、このプロトコルを使用する必要があります。それは彼らにとってあまり実用的ではありません。