特定のリンクがあるWeb上のすべてのサイトを取得したいとします。たとえば、他のWebサイトで私のブログに作成されたすべてのバックリンクを知りたいです。これを行うサービスがあります: http://www.backlinkwatch.com/index.php -この機能をどのように実現するのか疑問に思っていました。
インターネット全体をクロールすることが唯一の選択肢であるか、これを行うサードパーティの方法がありますか、たとえばGoogleを使用します。
必要に応じて、実際にインターネット全体をクロールする必要があります。しかし、もっと簡単な方法があります。ユーザーがページに実際にクリックされるリンクに主に興味がある場合。リファラー情報を保存し、それを処理することで十分に機能します。
100%正確にするには、はい、ネット全体をクロールする必要があります。
GoogleとYahoo!の両方それぞれのAnalytics/Webmasterツールにこの機能がありますが、完全に包括的なものではありません。
どうやってやっているの?彼らのコアビジネスは、ネット全体を(ほぼ)クロールすることに依存しています。
これはあなたのサイトへの着信リンクの100%を持っていませんが、このツールは大いに役立ちます- http://www.opensiteexplorer.org/
この情報は、ページごとのGoogleアナリティクスでも確認できます。
このデータを取得するために使用する可能性のあるサードパーティでさえ、できる限り多くのインターネットをクロールしますが、それは避けられません。ただし、サードパーティを使用して、サーバーから作業をオフロードできます。
link:yourblog.com
のグーグルは簡単すぎると思いますか?
「ネット」をクロールすることは完全に可能です。必要な場合は、飽和状態のT4回線を使用するには数か月かかります(画像ではなくHTMLのみをダウンロードします)。しかし、単純な検索で十分な場合は、それがお勧めです。