web-dev-qa-db-ja.com

robots.txtによってブロックされたページがサイトに表示される:中国語、英語、ドイツ語が混在した説明を含む検索結果

robots.txtによってブロックされたリソースの奇妙な検索結果を見つけました。なぜ中国語(推測)テキストの後にテキストHello nighthawk!が続くのですか。これはグーグルのエステルですか?

Google Hello Nighthawks

昨日、ウェブマスターツールを使用してGoogleからURLを削除しようとしました。 Hello Nighthawk!はなく、「robots.txtによってブロックされました」というメッセージのみがありました。この問題は同僚から報告されました。

reported issue

これはrobots.txtの内容です:

User-agent: * Disallow: /en

ドメインは次の方法でリダイレクトされます。

www.domain.com/en -> (301) https://domain.com/en

ページhttps://domain.com/enは、ページの正しいタイトルを持つ通常のページを示します。

domain.com/enのタイトルには単語が含まれていません。プロジェクト全体を検索して、「ナイトホーク」という言葉を見つけました。含まれていません。また、中国語の翻訳もありませんでした。

4
Mark

Googleは、他のサイトからリンクされている場合、インデックスにクロールできないページを含めます。

これは、like<a href="domain.com/en">[CHINESE] - Hey nighthawk</a>などのWebサイトへのリンクが検索結果に表示されることを意味します。

そのような出来事は一時的なものであると示唆する人もいます。彼らはいつもではありません。 Googleでは、重要なページがrobots.txtによってブロックされることがあるため、クロールできないページのインデックスを作成します。 マットカッツの説明

Googlebotがrobots.txtファイルによってそのURLのクロールを禁止されている場合でも、GoogleがクロールされていないURL参照を返すことがあるのではないかと思われるかもしれません。それにはかなりの理由があります。2000年にGoogleを始めたとき、いくつかの便利なWebサイト(eBay、New York Times、California DMV)には、ページの取得を一切禁止するrobots.txtファイルがありました。ここで、誰かがクエリを実行したときに[california dmv]検索結果として返されることになっているものを尋ねます。最初の結果としてwww.dmv.ca.govを返さなかった場合、私たちはかなり悲しそうに見えます。ただし、その時点ではwww.dmv.ca.govからページを取得することはできませんでした。解決策は、正しいリンクであるという確信が高いときに、クロールされていないリンクを表示することでした。

site:クエリを除いて、検索結果からこのページが表示されることはほとんどありません。そうでなければ、誰かが[CHINESE] Hey nighthawkまたはその一部を検索する必要があります。

8

robots.txtは、ページのインデックスを作成できないようにします

あなたはその権利を読みます。

ページをクロール可能およびunindexableにする

Google検索結果にページが表示されないようにするには、robots.txtによってクロール可能であり、明示的にインデックス付け不可であることを確認してください

ページを検索エンジンのインデックスから保護するためにrobots.txtを使用するのが一般的な方法です。ただし、ページがインデックスに登録されないようにするには、ページをクロールできる必要があります。

Google(およびBing)は、ページから指示された場合、インデックスからページを除外します。これは、X-Robots-Tag HTTPヘッダー、またはHTMLの noindexメタタグ になります。

ただし、robots.txtがページの読み取りを禁止している場合、Googlebotはこれらの指示を読み取ることができません。そのため、Googleは疑いを利用して、ページをインデックスに配置します(必要な場合)。

Googleが説明します

Robots.txtファイル(またはファイルがない場合)がページをクロールする許可を与えた後、デフォルトでは、ページはクロール可能、インデックス可能、アーカイブ可能として扱われます 、およびロボットのメタタグまたはX-Robots-Tagで許可が明確に拒否されていない限り、そのコンテンツは検索結果に表示されるスニペットでの使用が承認されます。

Googleの半分修正

Googleウェブマスターツールを使用して Googleインデックスからページを一時的に削除 できます。ただし、削除の有効期間は決まっていません。それは本当に解決策ではありません。

また、Googleには robots.txtの実験的なインデックスなし機能 があり、Webマスターがページをクロールできず、インデックスも作成できないように設計されています。 Googleはその機能について何の保証も行いませんので、ご自身の責任で使用してください。

また、他の検索エンジンはrobots.txt内のインデックスなしディレクティブをサポートしていないことに注意してください。 Bing Webマスタードキュメント 状態:

Bingインデックスから自分のサイトからURLを削除するには…BingbotがURLにアクセスできる必要があるため、robots.txtを介してURLが再クロールされるのをブロックしないでください。

では、robots.txtの目的は何ですか?

robots.txtは、検索エンジンボットがWebサイトに不要なスパイダートラフィックを与えないようにするためのソリューションを目的としています。Webホストからトラフィックが発生したり、(Webサイトが脆弱な場合)パフォーマンスや安定性の問題を引き起こす可能性があります。

これらは、(表面上)Googleで検索するユーザーがページを見つけられないようにすることとは別の懸念事項です。

SERPのページに関連付けられている意味不明な言葉について

ページに関連付けられている検索結果の誤ったコンテンツは、サイトにリンクされているページのアンカーテキストに由来する場合があります。ページはクロール不可であるため、この中古情報は、Googleがお客様のページのコンテンツに関して入手できる最高の情報です。

サイトに関連付けられているコンテンツの一部は、Webのより暗い領域からのものであると思われます。これらの場所は、さまざまな理由でサイトにリンクしている可能性がありますが、そのほとんどは、評判との関連付けを試みています。

6
Tim Grant