S3でサイトの静的コンテンツをホストします。また、非常にオープンなrobots.txtもあります。
User-agent: *
Allow: *
これは、ウェブマスターツールで数千の警告を受け取るSitemap contains urls which are blocked by robots.txt.
画像はコンテンツアイテムとともにサイトマップにリストされ、正しいパスを使用します。 http://mybucket.s3.Amazon.com/image/path.jpg 。
Robots.txtにリモートURLを追加できますか? s3にこのようなリベラルなrobots.txtがある場合、これは私のサイトのrobots.txtの制限であると想定しています。
他の誰かがs3に画像を保存し、サイトマップに入れましたか?
Allow: *
は実際にはAllow: /
でなければなりません。
それは問題になる可能性があります...本当に、Allow:
を使用することはそれ自体では無意味です。その目的は、拒否されたパス内のサブパスを許可することです。現状では、ファイルが誤って解釈されている可能性があります。
拒否されないものはすべて暗黙的に許可されることになっています。
すべてを許可したい場合は、代わりにDisallow:
を使用する必要があります...またはもちろん、4xxエラーはクローラによって次のように解釈されるため、/robots.txt
ファイルを完全に削除できます「ここに制限はありません。楽しんでください!」