web-dev-qa-db-ja.com

検索ボットによるサーバー(サブ)ドメイン名のインデックス作成を禁止する

私が書いたWebアプリケーションは、私の大学のドメイン(department.uni.edu)の下にあるmyserverという名前の社内サーバーでホストされ、サーバーのアドレスはmyserver.department.uni.eduになります。 I Googlemyserverの場合、最初の結果は、Webアプリケーションをホストするサーバーそのものです。

次の内容のアプリケーション(ルートディレクトリ)用のrobots.txtファイルがあります。

User-agent: *
Disallow: /

インデックスが作成されたのは実際のサーバードメイン名であり、Webアプリケーションには何もありません。

Googleウェブマスターツール で検索結果を削除できることは知っていますが、Googleがサーバーのドメイン名のインデックスを作成できないようにするにはどうすればよいですか(またはaddress)?サーバーはUbuntu 14.10でNginxを実行していると思います(私はサーバーの責任者ではなく、単にWebアプリケーションをコーディングしています)。

ここでの要望は、Google、Bing、YahooなどのWeb検索ツールによってサーバーがインデックス付けされないようにすることです。基本的に、既知の検索エンジンクローラーをすべてブロックします。

おそらく解決策は、次のようなNginx書き換えルールを使用して、サブドメインのルート(mysever.department.university.edu)へのすべてのクローラーをブロックすることです。

map $http_user_agent $limit_bots {
     default 0;
     ~*(google|bing|yandex|msnbot) 1;
     ~*(AltaVista|Googlebot|Slurp|BlackWidow|Bot|ChinaClaw|Custo|DISCo|Download|Demon|eCatch|EirGrabber|EmailSiphon|EmailWolf|SuperHTTP|Surfbot|WebWhacker) 1;
     ~*(Express|WebPictures|ExtractorPro|EyeNetIE|FlashGet|GetRight|GetWeb!|Go!Zilla|Go-Ahead-Got-It|GrabNet|Grafula|HMView|Go!Zilla|Go-Ahead-Got-It) 1;
     ~*(rafula|HMView|HTTrack|Stripper|Sucker|Indy|InterGET|Ninja|JetCar|Spider|larbin|LeechFTP|Downloader|tool|Navroad|NearSite|NetAnts|tAkeOut|WWWOFFLE) 1;
     ~*(GrabNet|NetSpider|Vampire|NetZIP|Octopus|Offline|PageGrabber|Foto|pavuk|pcBrowser|RealDownload|ReGet|SiteSnagger|SmartDownload|SuperBot|WebSpider) 1;
     ~*(Teleport|VoidEYE|Collector|WebAuto|WebCopier|WebFetch|WebGo|WebLeacher|WebReaper|WebSauger|eXtractor|Quester|WebStripper|WebZIP|Wget|Widow|Zeus) 1;
     ~*(Twengabot|htmlparser|libwww|Python|Perl|urllib|scan|Curl|email|PycURL|Pyth|PyQ|WebCollector|WebCopy|webcraw) 1;
 }

location / {
    if ($limit_bots = 1) {
        return 403;
    }
}

Gd Hussleから借用

しかし、これで十分ですか、それとももっと洗練されたものが必要でしょうか?

1
Chris Cirefice

Robots.txtを使用すると、クロールを制御できますが、インデックス作成ではありません。検索エンジンがホスト上のドキュメントのクロールを許可されていない場合でも、URLのインデックスを作成できます。外部サイトでリンクが見つかった場合。

meta-robots要素またはX-Robots-Tag HTTPヘッダーを使用してインデックス作成を制御できます( 例を参照 )。

検索エンジンにクロールを許可してインデックスを作成しないようにするか、インデックスを作成するがクロールしないようにするかを決定する必要があります。 robots.txtでのクロールを許可しないと、検索エンジンがドキュメントにアクセスできなくなるため、ドキュメントをインデックスに登録したくないことを知ることができません。

1
unor