web-dev-qa-db-ja.com

Googlebotはrobots.txtを302リダイレクトで処理できますか?

Googleウェブマスターツールで、エラーが表示されます。

サイトのrobots.txtファイルにアクセスできなかったため、Googleはサイトをクロールできませんでした

関連するヘルプは言う:

Robots.txtファイルは存在するが到達できない場合(つまり、200または404 HTTPステータスコードを返さない場合)、許可されていないURLをクロールするリスクではなく、クロールを延期します

私のサイト302は、すべてのhttpトラフィックをHTTPSにリダイレクトします。したがって、http://blah/robots.txtへのアクセスはhttps://blah/robots.txtにリダイレクトされるため、上記のように文字通り200または404を返しません。

私の質問-Googlebotはrobots.txtファイルにアクセスしようとすると302リダイレクトを拒否しますか?

注:サーバー構成の多くは制御不能であり、企業のITのためにこのように構成されています。私は制約にもかかわらず、これを機能させる必要がある貧しい男です。

2
Alan

これらの引用は私がGoogleから取ったものです。

ファイルの場所と有効範囲
robots.txtファイルは、適切なプロトコルとポート番号でアクセスできるホストの最上位ディレクトリにある必要があります。 robots.txt(およびWebサイトのクロール)で一般的に受け入れられているプロトコルは、「http」と「https」です。 httpおよびhttpsの場合、robots.txtファイルはHTTPの無条件のGETリクエストを使用して取得されます。

そしてまた

xx(リダイレクト)
リダイレクトは通常、追跡されますntil有効な結果が見つかります(またはループが認識されます)。限られた数のリダイレクトホップ(HTTP/1.0のRFC 1945では最大5つのホップを許可)を追跡し、停止して404として扱います。

Googleのソース と読むことができます/すべきです。

2
Charles

最も可能性が高いのは、Googleが使用を推奨していない一時的なリダイレクトである302リダイレクトを使用しているためです。 HTTPからHTTPSにリダイレクトするには、永続的な301リダイレクトを使用する必要があります。

1
Max