クロールとWebスクレイピングに違いはありますか?
違いがある場合、カスタマイズされた検索エンジンで後で使用するためにデータベースを提供するためにいくつかのWebデータを収集するために使用する最良の方法は何ですか?
クロールは基本的に、Google、Yahoo、MSNなどが行うことで、あらゆる情報を探します。スクレイピングは通常、特定のWebサイトを対象にしています。価格比較のため、まったく異なる方法でコーディングされています。
通常、スクレイパーは、スクレイピングが行われるはずのWebサイトに特注され、(良い)クローラーではできないことを行います。
はい、それらは異なります。実際には、両方を使用する必要がある場合があります。
(これまでのところ、他の答えは本質に達していないので、私は飛び込む必要があります。彼らは例を使用しますが、区別を明確にしません。確かに、それらは2010年からです!)
Webスクレイピングは、最小限の定義を使用して、Webドキュメントを処理し、そこから情報を抽出するプロセスです。 Webクロールを実行せずにWebスクレイピングを実行できます。
Webクロールは、最小限の定義を使用して、シードURLのリストから開始してWebリンクを繰り返し検索および取得するプロセスです。厳密に言えば、Webクロールを行うには、ある程度のWebスクレイピングを行う必要があります(URLを抽出するため)。
他の回答に記載されているいくつかの概念をクリアするには:
robots.txt
は、Webページにアクセスする自動プロセスに適用することを目的としています。したがって、クローラーとスクレーパーの両方に適用されます。
「適切な」クローラーとスクレーパーはどちらも、自分自身を正確に識別する必要があります。
いくつかの参照:
AFAIK Web CrawlingはGoogleが行うことです。リンクを調べ、そのサイトとリンク先のサイトのレイアウトのデータベースを構築するWebサイトを巡回します
Webスクレイピングは、Webページのプログラマティック分析であり、一部のデータをロードします。たとえば、BBC天気を読み込み、天気予報をリッピング(スクレイピング)して、他の場所に配置したり、別のプログラムで使用したりします。
これら2つの間に根本的な違いがあります。より深く掘り下げたい場合は、これを読むことをお勧めします- Webスクレーパー、Webクローラー
サイトをクロールして、サイトの構成方法、ページ間の接続、および関心のあるすべてのページにアクセスするのに必要な時間を推定します。スクレイピングは、ウェブサイトをいくつかの長方形が切り取られた紙で覆っていると考えてみましょう。ナビゲーション、フッター、広告などのすべてのページに共通するWebサイトの部分、またはコメントやパンくずなどの外部情報を完全に無視して、必要なものだけを表示できるようになりました。クロールと廃棄の違いについて詳しくは、こちらをご覧ください: https://tarantoola.io/web-scraping-vs-web-crawling/
これら2つには間違いなく違いがあります。 1つはサイトを訪問すること、もう1つは抽出することを指します。