web-dev-qa-db-ja.com

新しいrobots.txtファイルの読み取りをGoogleに促すにはどうすればよいですか?

新しいサイトでrobots.txtファイルを更新しました。 Googleウェブマスターツールは、最後の更新の10分前にrobots.txtを読み取ったと報告しています。

Googleにrobots.txtをできるだけ早く再度読み取るように促す方法はありますか?

更新:サイト構成の下|クローラーアクセス| robots.txtをテストします。

ホームページへのアクセスは次のとおりです。

Googlebotは http://my.example.com/からブロックされています

参考:Googleが最後に読んだrobots.txtは次のようになります。

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

私は自分の足を撃ちましたか、それとも最終的にはhttp:///robots.txtを読みますか(前回読んだときのように)?

私が何をする必要があるかについてのアイデアはありますか?

22
qxotk

他の誰かがこの問題に遭遇した場合に備えて、google-botにrobots.txtファイルの再ダウンロードを強制する方法があります。

Health-> Fetch as Google [1]に移動し、/ robots.txtをフェッチしてもらいます。

これによりファイルが再ダウンロードされ、Googleもファイルを再解析します。

[1]以前のGoogle UIでは、「Diagnostics-> Fetch as GoogleBot」でした。

25
Matt

私はこれが非常に古いことを知っていますが...間違ったrobots.txtをアップロードした場合(すべてのページを許可しない)、次のことを試すことができます:

  • 最初にrobots.txtを修正して正しいページを許可し、次に
  • あなたのページでsitemap.xmlをアップロードしてください

googleがxmlサイトマップを読み取ろうとすると、robots.txtを再度チェックして、googleにrobots.txtの再読み取りを強制します。

4
Hussam

同じ問題が発生した後、次のURLで送信してrobots.txtファイルをgoogleに再読み込みしました:

https://www.google.com/webmasters/tools/robots-testing-tool

1
potrodoido

OK。これが私がしたことで、数時間以内にGoogleがrobots.txtファイルを再読み込みしました。

運営する1サイトごとに2つのサイトがあります。それらを正規サイト(www.mysite.com)とベアドメインサイト(mysite.com)と呼びましょう。

Mysite.comが常にwww.mysite.comにリダイレクトする301を返すようにサイトを設定しています。

Googleウェブマスターツールで両方のサイトをセットアップしたら、www.mysite.comが正規サイトであることを伝え、すぐに正規サイトのrobots.txtファイルを読み取りました。

理由はよくわかりませんが、そうなったのです。

1
qxotk

Googleスキャンの間隔を数日間短くします。

また、robots.txtを確認するためにbuttomを確認しました。これにより、Googleに強制される可能性がありますが、よくわかりません。

0
BarsMonster