web-dev-qa-db-ja.com

Googleは、リンクされていない新しく作成されたページをどのように見つけましたか?

新しいサイトを構築していますが、既存のサイトのサブディレクトリを使用してコンテンツを作成しています。このサブディレクトリへのリンクをどこにも投稿したことはありませんが、Googleを検索すると、Googleが私のサイトでこれらのページを見つけてインデックスに登録したことがわかります。

さらに、WMTが読み取り中として報告するrobots.txtファイルでサイトを更新しました。WMTテストツールを使用してブロックされたページをテストすると、ページのインデックスが作成されないことがわかります。どうやらこれで既存の結果からページが削除されるわけではありませんが、要求を送信しました。

Googleはこれらのページを最初にどのように見つけましたか?共通のサブディレクトリ名を使用し、Googleが共通のサブディレクトリを推測したためでしょうか?

5
Paul

WordPressなどの多くのCMSシステムは、公開されている各ページについてGoogleに通知します。 WordPressはこれを「 更新サービス 」と呼び、デフォルトでping-o-maticを使用します。

Googleは、ブラウザから取得したデータを使用してクロールを開始する場合もあります。 Googleツールバー(またはPageRankチェッカー)を備えたブラウザを使用している場合、Googleはアクセスしたすべてのページのリストを取得します。ただし、 Googleは、この目的でツールバーデータを使用することを拒否しています

Googleは言う 「秘密の」URLを発見する一般的な方法は、他のサイトにリンクすることです。これらの他のサイトは、リファラーの「秘密」ページを参照し、リファラーリンクのリスト(ブログの一般的な機能)を公開する場合があります。

3

ChromeまたはGoogleツールバーを使用すると、Googlebotがあなたのウェブサイトを閲覧しながらあなたをフォローすると思います。そのため、それらを指すリンクに関係なく、到達したページに到達します。

Googleインデックスからコンテンツを削除することについては、しばらく時間がかかると思います。

1
adrianTNT

アクセスをブロックするために使用したRobots.txtコードをここに投稿してください。 Googleは迅速にクロールし、実際にrobotsファイルを更新する前にURLのインデックスを作成するため、後でこれらのページを起動してからrobots.txtを更新しない限り、GoogleはWebサイトをクロールできません。発生した場合は、待機してください。Googleは自動的にURLのインデックスを解除します。

0
user2434