たくさんのウェブページにインデックスを付ける必要がありますが、どのような優れたウェブクローラーユーティリティがありますか?私は.NETが話すことができる何かを求めているのが望ましいですが、それは目を見張るものではありません。
私が本当に必要としているのは、サイトのURLを指定できるものであり、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。
HTTrack -- http://www.httrack.com/ -は非常に優れたWebサイトコピー機です。かなりうまくいきます。長い間使っています。
NutchはWebクローラーです(クローラーは探しているプログラムのタイプです)-- http://lucene.Apache.org/nutch/ -これは一流の検索ユーティリティluceneを使用します。
Crawler4j はオープンソースのJavaクローラーで、Webをクロールするためのシンプルなインターフェイスを提供します。マルチスレッドのWebクローラーを5分でセットアップできます。
ページにアクセスするかどうか(URL)に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。
crawler4jを選択するいくつかの理由;
Searcharoo.NET コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避して、ダウンロード時にコンテンツをトラップし、そこから独自のカスタムコードを追加できるはずです...
これは非常に基本的です(すべてのソースコードが含まれており、6つのCodeProject記事で説明されていますが、最新のものはここにあります Searcharoo v6 ):スパイダーはリンク、イメージマップ、画像をたどり、ROBOTSディレクティブに従います。一部の非HTMLファイルタイプを解析します。これは、(Web全体ではなく)単一のWebサイトを対象としています。
Nutch/Luceneは、ほぼ確実に、より堅牢で商用グレードのソリューションですが、私はそれらのコードを見ていません。何を達成したいのかわかりませんが、 Microsoft Search Server Express も見たことがありますか?
免責事項:私はSearcharooの作者です。オプションとしてここに提供するだけです。
私は MozendaのWebスクレイピングソフトウェア を使用しています。すべてのリンクを簡単にクロールして、必要なすべての情報を取得することができます。これは、コストパフォーマンスに優れたソフトウェアです。
Sphider はかなり良いです。これはPHPですが、役立つかもしれません。
まだ使っていませんが this 面白そうです。著者はそれを最初から書き、彼がどのようにしたかを投稿しました。そのコードはダウンロードすることもできます。