web-dev-qa-db-ja.com

優れたWebクローラーツールとは

たくさんのウェブページにインデックスを付ける必要がありますが、どのような優れたウェブクローラーユーティリティがありますか?私は.NETが話すことができる何かを求めているのが望ましいですが、それは目を見張るものではありません。

私が本当に必要としているのは、サイトのURLを指定できるものであり、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

16
Glenn Slaven

HTTrack -- http://www.httrack.com/ -は非常に優れたWebサイトコピー機です。かなりうまくいきます。長い間使っています。

NutchはWebクローラーです(クローラーは探しているプログラムのタイプです)-- http://lucene.Apache.org/nutch/ -これは一流の検索ユーティリティluceneを使用します。

12
anjanb

Crawler4j はオープンソースのJavaクローラーで、Webをクロールするためのシンプルなインターフェイスを提供します。マルチスレッドのWebクローラーを5分でセットアップできます。

ページにアクセスするかどうか(URL)に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。

crawler4jを選択するいくつかの理由;

  1. マルチスレッド構造、
  2. クロールする深度を設定できます。
  3. Javaベースのオープンソース、
  4. 冗長リンク(URL)の制御、
  5. クロールするページ数を設定できます。
  6. クロールするページサイズを設定できます。
  7. 十分なドキュメント
4
cuneytykaya

Searcharoo.NET コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避して、ダウンロード時にコンテンツをトラップし、そこから独自のカスタムコードを追加できるはずです...

これは非常に基本的です(すべてのソースコードが含まれており、6つのCodeProject記事で説明されていますが、最新のものはここにあります Searcharoo v6 ):スパイダーはリンク、イメージマップ、画像をたどり、ROBOTSディレクティブに従います。一部の非HTMLファイルタイプを解析します。これは、(Web全体ではなく)単一のWebサイトを対象としています。

Nutch/Luceneは、ほぼ確実に、より堅牢で商用グレードのソリューションですが、私はそれらのコードを見ていません。何を達成したいのかわかりませんが、 Microsoft Search Server Express も見たことがありますか?

免責事項:私はSearcharooの作者です。オプションとしてここに提供するだけです。

2
Conceptdev

私は MozendaのWebスクレイピングソフトウェア を使用しています。すべてのリンクを簡単にクロールして、必要なすべての情報を取得することができます。これは、コストパフォーマンスに優れたソフトウェアです。

1
Amber

Sphider はかなり良いです。これはPHPですが、役立つかもしれません。

1
Darryl Hein

まだ使っていませんが this 面白そうです。著者はそれを最初から書き、彼がどのようにしたかを投稿しました。そのコードはダウンロードすることもできます。

0
Dave Neeley