web-dev-qa-db-ja.com

サイトはロボットでブロックされているように見えますが、Google Search Consoleではテスト済みのURLは許可されていますか?

クライアントのサイトで作業しているときに、重複したコンテンツチェッカーツールを使用しようとするとエラーが発生しました。このツールは、ホームページがrobots.txtによってブロックされていると述べました。

検索コンソールでは、robots.txtに実際に次の行が含まれていることがわかります。

User-agent: *
Disallow: /

しかし、テストすると、チェックするページに対して「許可」と表示されます。

また、サイトマップのすべてのページがインデックス化されており、エラー/競合が報告されていないことにも注意してください。私が考えることができる唯一のことは、robotsファイルの上記の行の後にサイトマップへのリンクが続くということです。

これはDisallowコマンドをオーバーライドしますか?

1

サイトマップファイルへのリンクは、説明したセットアップのDisallowコマンドを無効にしないでください(具体的には、ディレクティブがその順序で発生する場合)。

私が探しているもの:

  • 「ユーザーエージェント」行の直後に「許可しない」行が続きますか? (この場所で無効なコマンドを使用すると、「許可しない」が無視される可能性があります)
  • ファイルに複数の「ユーザーエージェント」ブロックがありますか? (Googlebotが「許可しない」を無視する可能性があります)
  • Robots.txtファイル内に他のものがある場合:それ以外の場合、許可を妨げる可能性がありますか?

あるとき、目に見えないユニコード文字を含むrobots.txtファイルに出会いました。このパスの結果、ブラウザで見たのとは異なります。解決策:異なるエンコード間で変換できるテキストエディターを使用してファイルを実行し、特殊文字を削除します。

1
schwarzbrot