優れたWebクローラーツールとは

Question

たくさんのウェブページにインデックスを付ける必要がありますが、どのような優れたウェブクローラーユーティリティがありますか？私は.NETが話すことができる何かを求めているのが望ましいですが、それは目を見張るものではありません。

私が本当に必要としているのは、サイトのURLを指定できるものであり、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

anjanb · Accepted Answer

HTTrack -- http://www.httrack.com/ -は非常に優れたWebサイトコピー機です。かなりうまくいきます。長い間使っています。

NutchはWebクローラーです（クローラーは探しているプログラムのタイプです）-- http://lucene.Apache.org/nutch/ -これは一流の検索ユーティリティluceneを使用します。

cuneytykaya · Answer

Crawler4j はオープンソースのJavaクローラーで、Webをクロールするためのシンプルなインターフェイスを提供します。マルチスレッドのWebクローラーを5分でセットアップできます。

ページにアクセスするかどうか（URL）に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。

crawler4jを選択するいくつかの理由;

マルチスレッド構造、
クロールする深度を設定できます。
Javaベースのオープンソース、
冗長リンク（URL）の制御、
クロールするページ数を設定できます。
クロールするページサイズを設定できます。
十分なドキュメント

Conceptdev · Answer

Searcharoo.NET コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避して、ダウンロード時にコンテンツをトラップし、そこから独自のカスタムコードを追加できるはずです...

これは非常に基本的です（すべてのソースコードが含まれており、6つのCodeProject記事で説明されていますが、最新のものはここにあります Searcharoo v6 ）：スパイダーはリンク、イメージマップ、画像をたどり、ROBOTSディレクティブに従います。一部の非HTMLファイルタイプを解析します。これは、（Web全体ではなく）単一のWebサイトを対象としています。