web-dev-qa-db-ja.com

Googleがサイトをクロールしないようにします(robots.txtで既にブロックされています)

ドイツでのYouTubeの音楽の削除に悩まされた私は、個人使用のためだけに「YouTubeクローン」を始めました。定期購入と、特別なキーワードを使用した動画や特別なYouTubeユーザーからの動画を自動的にダウンロードします。これらはすべて正常に機能します。そして、それらのすべては外部からはアクセスできません(ユーザー名とパスワードが必要です。これは私だけが持っています)。

スタートページには、サブスクリプションに含まれているがまだダウンロードされていないビデオへのリンクがたくさんあります。これらのリンクのいずれかをクリックすると、そのビデオが元のYouTube埋め込み機能に含まれます。これらはすべて正常に機能します。

しかし、今私の問題:数分前、私はその埋め込み物でビデオを見ました、そして私はちょうど私のApacheログでこれを見ました:

66.249.89.90 - - [20/Dec/2014:21:40:52 +0100] "GET my_youtube_clone HTTP/1.1" 200 2780 "-" "Mediapartners-Google"

私はすでにすべてのボットをrobots.txtでブロックしているので、明らかにGoogleはYouTubeリファラーを使用してページをクロールしますが、それを行っている間はrobots.txtを無視しています。

先ほど言ったように、Googleはそこからは何も役に立たなかったのですが、そのためにはパスワードが必要になりますが、Googleがrobots.txtを無視し、YouTubeのリファラーをクロールURLソースとして使用していることに非常に困っています。

それを完全に止める方法はありますか?

1
itsmemario

Mediapartners-Googleは、GoogleがAdSense広告を含むページをクロールするために使用するユーザーエージェントです。クロールは、おそらくビデオで表示される広告に関連しています。

広告を削除すると、Googleはこのようなクロールの試行を停止します。

5

ヘッダー(<head></head>)でタグを使用して、ほとんどの検索エンジンからのクロールを防止できます。

<meta name="robots" content="noindex">

また、Googleのみをブロックする場合は、これを使用できることも指定しています。

<meta name="googlebot" content="noindex">

Googleは同じものを投げます: https://support.google.com/webmasters/answer/93710?hl=en

0
Mike