Webクロールに興味があります。私はsolr
を見ていました。
solr
はWebクロールを実行しますか、それともWebクロールを実行する手順は何ですか?
Solr 5+は実際にWebクロールを実行します! http://lucene.Apache.org/solr/
古いバージョンのSolrは、歴史的に全文検索機能を提供する検索サーバーであるため、Webクロールだけを実行しません。 Luceneの上に構築されます。
別のSolrプロジェクトを使用してWebページをクロールする必要がある場合は、次のようないくつかのオプションがあります。
LuceneまたはSOLRが提供する検索機能を利用する場合は、Webクロール結果からインデックスを作成する必要があります。
これも参照してください:
Solr自体にはWebクロール機能はありません。
Nutch は、Solrの「事実上の」クローラー(および一部)です。
Solr 5は単純なWebクロールのサポートを開始しました( Java Doc )。検索が必要な場合はSolrがツールであり、クロールが必要な場合はNutch/Scrapyの方が適しています:)
起動して実行するには、 ここ を詳しく見てください。ただし、これを1行で起動して実行する方法は次のとおりです。
Java
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar
-Dauto=yes
-Dc=gettingstarted -> collection: gettingstarted
-Ddata=web -> web crawling and indexing
-Drecursive=3 -> go 3 levels deep
-Ddelay=0 -> for the impatient use 10+ for production
org.Apache.solr.util.SimplePostTool -> SimplePostTool
http://datafireball.com/ -> a testing wordpress blog
ここのクローラーは非常に「ナイーブ」であり、 this ApacheSolrのgithubリポジトリからすべてのコードを見つけることができます。
応答は次のようになります。
SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=Twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059
私は最新のプロジェクトでNutchwith Solrを使用していますが、非常にうまく機能しているようです。
Windowsマシンを使用している場合は、JasonRiffelによる ' No cygwin 'の指示に従うことを強くお勧めします。
はい、ここの他の投稿に同意します。ApacheNutchを使用してください
bin/nutchクロールURL-solr http:// localhost:8983/solr / -depth 3 -topN 5
Solrのバージョンは正しいバージョンのNutchと一致しますが、古いバージョンのsolrはインデックスを異なる形式で格納するためです。
そのチュートリアル: http://wiki.Apache.org/nutch/NutchTutorial
しばらく経ちましたが、他の誰かが私のようなSolrクローラーを探している場合に備えて、 Norconex HTTP Collector という新しいオープンソースのクローラーがあります。
デフナッチ! Nutchには、検索結果を照会できる基本的なWebフロントエンドもあります。要件によっては、SOLRを気にする必要がない場合もあります。 Nutch/SOLRの組み合わせを実行すると、SOLRとNutchを統合するために行われた最近の作業を利用できるはずです... http://issues.Apache.org/jira/browse/NUTCH-442