web-dev-qa-db-ja.com

検索エンジンがPDFファイルのインデックスを作成できないようにするhtaccessの仕組みは何ですか?

Googleなどの検索エンジンから特定のファイル(私の場合はPDF)をブロックする方法については、すでにさまざまな投稿があります。この投稿に最も関連したのは次のとおりです: PDFファイルをインデックスから保護する方法 。しかし、その投稿では、最終的な答えは決して明確ではありませんでした。これらの3つのサイトに基づいて:

推奨事項は理解できたと思います。基本的に、robots.txtを使用してファイルのクロール/インデックス作成を禁止するnotを行う必要があります。代わりにX-Robots-Tagを使用する必要があります。

これにより、3つの質問が表示されます。これは、実際に、次のように動作することを確実に確信できるためです。

質問1:私のサイトwww.mysite.com/secretのサブフォルダー内のファイルに対する検索エンジンのインデックス作成を禁止するとします

次のサブフォルダーに.htaccessファイルを作成します。

Header set X-Robots-Tag "noindex, nofollow"

あるいは、秘密のサブフォルダーでPDFへのアクセスのみを許可しない場合は、(サブフォルダーの別の.htaccess内で)を使用します。

<FilesMatch ".doc$">
Header set X-Robots-Tag "index, noarchive, nosnippet"
</FilesMatch>

質問2:ウェブサイトのルートディレクトリにあるメインの.htaccessファイルに対して同じことをすることに利点はありますか?ある場合、サブディレクトリの上記2つのステートメントをどのように変更しますか? Googleのサイトで彼らは提案します:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

"secret/\.pdf$"insteadに変更しますか?フォワードスラッシュとバックワードスラッシュが不明です。

質問3:別のページにPDFをリンクする別のPDFドキュメントがあるとします秘密のフォルダ。 .htaccess x-robotsタグブロックが適切に配置されていても、サードパーティのリンクは非インデックスコマンドを中断しますか?

2
TSGM

あなたは研究を行っており、状況をうまく処理しているようです。総括する:

robots.txtを使用すると、検索エンジンがPDFファイルをクロールできなくなります。サードパーティのサイトがPDFファイルに直接リンクされている場合、検索エンジンは検索インデックスにURLを含めることができます(ただし、コンテンツのインデックスを作成することはできません)。

X-Robots-Tag "noindex, nofollow"を使用すると、検索エンジンがPDFファイルをクロールしてもインデックスを作成できなくなります。ファイルに直接リンクしているサードパーティのサイトでは、PDFファイルのインデックスが作成されません。

bothメソッドは使用できません。 PDFファイルをrobots.txtでブロックすると、検索エンジンはヘッダーを表示せず、URLのインデックスを作成する場合があります。


FilesMatchの代わりにpdfを使用すると、最初のdoc一致が正しく見えます。内部のルールはインデックスを作成できるように見えるため、間違ったものを貼り付けた可能性があります。

ルートディレクトリに配置する場合は、代わりにsecret/.*\.pdf$を使用する必要があります。そうすることの唯一の利点は、すべてのルールを1か所に集中させることです。

3