Googlebotがhead
-link
要素を持つHTMLページのhreflang
にのみリストされているWebページをフォローしてインデックスを作成するかどうかを知っていますか?
<link hreflang="fr" rel="alternate" href="http://example.io/fr/page/webpage" />
Closetnocが述べているように、Googleの主なビジネスは、価値のあるページが返され、もしそうであればインデックスが付けられることを期待してリンクを探してクロールすることです。
したがって、特定のページをインデックスに登録しないようにGoogleに明示的に指摘しない限り、すべてをクロールします。 Googleがインデックスを作成したくないページをインデックスに登録しないようにする方法をいくつか紹介します。
Googleでインデックスを作成したくないページがドキュメントルートのdontindexme.phpであると仮定しましょう。
ファイルをGoogleのインデックスに登録できないようにする最も良い方法ですが、ハッカーがサイト上でどのファイルが公開されているかを知るのに役立つ方法は、次の内容のドキュメントルートにrobots.txt(ファイルも公開されています)を作成することです:
User-agent: googlebot
Disallow: /dontindexme.php
もう1つの方法は、Apache構成を変更してHTTPヘッダーを追加することです。または、スクリプトを変更してHTTPヘッダーも含めることができます。要求されたファイルが次の場合に出力するHTTPヘッダーは次のとおりです。
X-Robots-Tag: noindex
このメソッドは、Googleがページの取得を開始することを妨げませんが、Googleに検索結果でページを宣伝しないように指示します。
Googleが特定のURLをクロールするのを本当に停止したい場合は、Googleに返される結果のステータスが200 OKではないようにスクリプトまたはApacheを構成できます。これは、「見つかりません」ページを返すことができることを意味します。ただし、このルートを選択した場合は、410ステータスを指定して、ページがgoogleに移動したことを示し、そのgoogleが再びインデックスを作成することはありません。
Googleがクロールしない別のことは、POSTリクエストメソッドを介してのみアクセス可能なリンクです。これは、フォームに入力した結果としてURLにアクセスすることを意味します。これは、GoogleがWebサイトであまりにもインタラクティブになりたくない(ログインやショッピングなど)ためです。
インデックスを作成することを意図していないページで上記のアクションのいずれかを実行しない限り、Googleがページをクロールしてインデックスを作成すると想定してください。
Href-lang属性をサイトに追加しましたが、7日後、新しい言語ページのインデックスが作成されていません。それ以来、Googleは100,000ページをクロールしました。
はい。GoogleCrawlerはhreflangページをインデックス化し、ウェブサイトの一意のページとしてカウントします。