web-dev-qa-db-ja.com

使用できなくなったサブドメインの古いサイトを検索エンジンがクロールしようとしないようにする

数年前、私はいくつかのサイトを持っていました。それから私はそれらを閉じました。当時、検索エンジンは私のサイトをデータベースに追加していました。具体的には、Googleと中国のBaiduはそれらについて知っています。現在、ボットはDNSサーバーに存在しないサイトを照会します。

厄介なことに、今ではWebサイトが機能しています。 example.comと呼びましょう。これらの存在しないサイトは、forum.example.comのようなサブドメインです。

トラフィックは重要ではありません。しかし、なぜそれを毎日持っているのでしょうか?

私が見る限り、おそらくそれに対処するための2つの方法があります:

  1. 管理方法、つまり、何らかの方法で検索エンジンに連絡し、それらのデータベースからそれらのサイトを削除するようにうまく依頼する
  2. 技術的な方法、つまり、BIND9構成で自分で対処する方法。

しかし、率直に言って、私はこの問題にどのようにアプローチするかわかりません。

1
Gregory

サブドメイン上に単一のページを設定して、サブドメインがアクティブでなくなり、代わりにwww.example.comにアクセスする必要があるというメッセージをユーザーに送信できます。ユーザーがメインサイトにクリックスルーするためのリンクを提供し、検索エンジンのヘッダーに<meta name="robots" content="noindex">を含めて、それがもう利用できないことを確認します。

このオプションは、ユーザーと検索エンジンの両方に最も役立ちます。

2
Andrew Lott

それらのサイトにアクセスできる場合は、ハード404-headerを追加してください。それ以上明白になることはありません。メタ(noindexとnofollow)はまだいくつかのコンテンツが存在することを示していますが、あなたはただそれをインデックス付けしたくありません(彼らが気にする限り)。

それらのサイトが存在しない場合は、htaccessといくつかのCNAMESを使用して同じトリックを行います。 (CNAME forum.site.comサイトとして、htaccessで404)。

2
Martijn

Googleは一度インデックスに登録したサイトを決して忘れません。 Googlebotは、古いサイトに何年もアクセスしようとし続けます。ボットに古いURLへのアクセスを完全に停止させる方法はありません。

サイトが本当にダウンしている場合、Googleはそれらを検索インデックスに含めません。実際のユーザーが検索エンジンからそれらのサイトにアクセスすることはありません。サイトがまだバックアップされているかどうかを確認しようとする検索エンジンボットからの不定期のヒットのみが表示されます。

サブドメインのDNSエントリにトークンを持っているようです。表示される唯一のアクティビティは、サブドメインに対するDNSクエリです。これは、期待できる検索エンジンボットからのアクティビティの最小量です。

エラーページを提供する場合は、「410 Gone」HTTPステータスを使用します。このステータスにより、コンテンツを削除したことが明示されます。そのステータスでは、検索エンジンボットは、「404 Not Found」などの他のステータスよりも頻繁に復帰しません。 (ただし、それらは時々時々チェックされます。)

1

以前にあなたのウェブサイトをまだ管理している場合は、頭にこれを追加してください

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

これにより、検索エンジンのスパイダーにWebサイトのインデックス作成を停止し、リンクのフォローを停止するよう指示します。これらのエントリはデータベースからフラッシュされます。一方、Googleは複数のデータベースを使用しており、データベースのすべてのコピーが削除されるまで約7日かかる場合があります。

0
Vhortex