web-dev-qa-db-ja.com

検索エンジンが暗いWebに到達できないのはなぜですか?

Google、Yahoo、Bingなどの検索エンジンがダークウェブにアクセスしてコンテンツをアーカイブし、結果に表示できないのはなぜですか?

9
Petr

あなたがTorの隠しサービスについて話していると仮定すると、答えは彼らはできるですが、間接的にのみです。非表示のサービスへのゲートウェイを提供するさまざまな「ポータル」サイトがあります。これらのゲートウェイは通常のドメインを持つ通常のWebサイトですが、tor2webソフトウェアを実行しています。これは、Torクライアントを使用して、非TorユーザーとTorユーザー間のトラフィックを中継します(ただし、匿名性は提供されません)。これらは自由にインデックスを付けることができます。

Tor隠しサービスが頻繁にインデックス化されない理由はいくつかあります:

  • 他の誰かが以前に指摘したように、それは非常にバラバラです。相互にリンクしているサイトはほとんどないため、クローラーが新しいサイトや新しいページを見つけることができません。 90年代のオープンインターネットのようなものです。
  • 独自のプロトコルを使用しているため、ポータル/ゲートウェイサイトがないと接続できません。通常のブラウザで.onionドメインに接続してみてください。解決されないこともわかります。
  • そこに隠されたサービスはそれほど多くありません。 「vast」であるという神話は、用語の誤解に基づいて、根拠のないものです。実際には、かなり小さいです。
  • 一部のサイトは法的な理由でポータル/ゲートウェイサイトによってブロックされているため、Torプロトコルを使用してのみアクセスできます。検索エンジンクローラーはこれを使用しないため、サイトにアクセスできません。

通常のドメイン(ルートネームサーバー)のように、隠しサービスの単一の「データベース」はありません。非表示のサービスは、サーバーの公開鍵のエンコードされた切り捨てられたハッシュに基づいています。クライアントはサービスのドメイン名を使用して、非公開サービスのdescriptorを半公開データベースで検索します。半公開データベースには、公開鍵と紹介ポイントのリストが含まれています(リレーはサーバー)。クライアントはランダムなリレーをRendezvous Pointとして選択し、そのリレーのIDを紹介ポイント経由で隠しサービスに送信します。次に、サーバーとクライアントは、独自の3ホップ回線を介してランデブーポイントを介して出会います。

したがって、クライアントとサーバーは、複雑なプロトコルを通じて、実際のIPを明らかにする必要なく、接続を形成することができます。ドメインが解決するIPアドレスがないため、通常の検索エンジンは標準のHTTPとTCP/IPを使用してアドレスに到達できません。検索エンジンクローラーがこれらのサイトに接続するには、このプロトコルを使用する必要があります。それは彼らにとってあまり実用的ではありません。

13
forest