クライアントのサイトで作業しているときに、重複したコンテンツチェッカーツールを使用しようとするとエラーが発生しました。このツールは、ホームページがrobots.txtによってブロックされていると述べました。
検索コンソールでは、robots.txtに実際に次の行が含まれていることがわかります。
User-agent: *
Disallow: /
しかし、テストすると、チェックするページに対して「許可」と表示されます。
また、サイトマップのすべてのページがインデックス化されており、エラー/競合が報告されていないことにも注意してください。私が考えることができる唯一のことは、robotsファイルの上記の行の後にサイトマップへのリンクが続くということです。
これはDisallowコマンドをオーバーライドしますか?
サイトマップファイルへのリンクは、説明したセットアップのDisallowコマンドを無効にしないでください(具体的には、ディレクティブがその順序で発生する場合)。
私が探しているもの:
あるとき、目に見えないユニコード文字を含むrobots.txtファイルに出会いました。このパスの結果、ブラウザで見たのとは異なります。解決策:異なるエンコード間で変換できるテキストエディターを使用してファイルを実行し、特殊文字を削除します。