新しいサイトでrobots.txtファイルを更新しました。 Googleウェブマスターツールは、最後の更新の10分前にrobots.txtを読み取ったと報告しています。
Googleにrobots.txtをできるだけ早く再度読み取るように促す方法はありますか?
更新:サイト構成の下|クローラーアクセス| robots.txtをテストします。
ホームページへのアクセスは次のとおりです。
Googlebotは http://my.example.com/からブロックされています
参考:Googleが最後に読んだrobots.txtは次のようになります。
User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /
私は自分の足を撃ちましたか、それとも最終的にはhttp:///robots.txtを読みますか(前回読んだときのように)?
私が何をする必要があるかについてのアイデアはありますか?
他の誰かがこの問題に遭遇した場合に備えて、google-botにrobots.txtファイルの再ダウンロードを強制する方法があります。
Health-> Fetch as Google [1]に移動し、/ robots.txtをフェッチしてもらいます。
これによりファイルが再ダウンロードされ、Googleもファイルを再解析します。
[1]以前のGoogle UIでは、「Diagnostics-> Fetch as GoogleBot」でした。
私はこれが非常に古いことを知っていますが...間違ったrobots.txtをアップロードした場合(すべてのページを許可しない)、次のことを試すことができます:
googleがxmlサイトマップを読み取ろうとすると、robots.txtを再度チェックして、googleにrobots.txtの再読み取りを強制します。
同じ問題が発生した後、次のURLで送信してrobots.txtファイルをgoogleに再読み込みしました:
OK。これが私がしたことで、数時間以内にGoogleがrobots.txtファイルを再読み込みしました。
運営する1サイトごとに2つのサイトがあります。それらを正規サイト(www.mysite.com)とベアドメインサイト(mysite.com)と呼びましょう。
Mysite.comが常にwww.mysite.comにリダイレクトする301を返すようにサイトを設定しています。
Googleウェブマスターツールで両方のサイトをセットアップしたら、www.mysite.comが正規サイトであることを伝え、すぐに正規サイトのrobots.txtファイルを読み取りました。
理由はよくわかりませんが、そうなったのです。
Googleスキャンの間隔を数日間短くします。
また、robots.txtを確認するためにbuttomを確認しました。これにより、Googleに強制される可能性がありますが、よくわかりません。