パブリックWebページにPDFドキュメントへのリンクがあります。検索エンジンがこのリンクとPDFドキュメントのインデックスを作成しないようにするにはどうすればよいですか?
私が考えた唯一のアイデアは、CAPTCHAを使用することです。しかし、リンクとPDFドキュメントのインデックスを作成しないように検索エンジンに指示する魔法の言葉があるのだろうか? PHPまたはJavaScriptを使用したオプションも問題ありません。
明確にするためだけに。 PDFを暗号化し、パスワードで保護したくありません。検索エンジンに対しては非表示にしたいだけで、ユーザーには表示したくないだけです。
PDFファイル(またはHTML以外のファイル)が検索結果に表示されないようにするには、HTTP X-Robots-Tag
応答ヘッダーを使用するしか方法はありません。例:
X-Robots-Tag: noindex
これを行うには、次のスニペットをサイトのルート.htaccessファイルまたはhttpd.confファイルに追加します。
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
上記が機能するためには、問題のファイルのHTTPヘッダーを変更できる必要があることに注意してください。したがって、たとえば GitHub Pages でこれを実行できない場合があります。
また、robots.txtはnotを使用すると、検索結果にページがリストされなくなります。
ボットによるページのクロールを停止しますが、サードパーティがtheirWebサイトからPDFファイルにリンクする場合、ページは引き続きリストされます。 。
robots.txtを使用してボットがページをクロールしないようにすると、X-Robots-Tag: noindex
応答タグが表示される機会がなくなります。したがって、X-Robots-Tag
ヘッダーを使用する場合、robots.txtのページを決して禁止しないでください。詳細は Google Developers:Robots Meta Tag で見つけることができます。
これを行うには複数の方法があります(それらを組み合わせることは明らかにこれを達成する確実な方法です):
1)robots.txtを使用して、検索エンジンクローラーからのファイルをブロックします。
User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf # Block pdf files. Non-standard but works for major search engines.
2)それらのPDFへのリンクでrel="nofollow"
を使用する
<a href="something.pdf" rel="nofollow">Download PDF</a>
3)x-robots-tag: noindex
HTTPヘッダーを使用して、クローラーによるインデックス作成を防止します。このコードを。htaccessファイルに配置します。
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
Nginxを使用した開発インスタンスがGoogle検索結果に表示されている場合、検索エンジンがサイトをクロールするのを防ぐための迅速かつ簡単な方法があります。クロールを防止するブロックの仮想ホスト構成ファイルの場所ブロックに次の行を追加します。
add_header X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";
robots.txtファイルを使用できます。もっと読むことができます こちら 。
この敷居が誰かに何らかの価値をもたらすかどうかはわかりませんが、最近、オンプレミスのGSAボックスがPDFファイルのインデックスを作成しないという問題に遭遇しました。
Googleサポートはこの問題に対処しましたが、このPDFドキュメントにはカスタムプロパティセット([ファイル]-> [ドキュメントプロパティ]-> [カスタム(タブ))]
name: robots
value: noindex
これにより、GSAによる適切なインデックス付けができなくなりました。
ドキュメントへのアクセス権があり、そのプロパティを変更できる場合、GSAのリースで機能する可能性があります。