web-dev-qa-db-ja.com

GoogleにPDFドキュメントのインデックスを作成させるにはどうすればよいですか?

GoogleがサイトのPDFファイルのインデックスを作成するのに問題があります。約50 PDFがあり、サイズは20 KBから2メガバイト弱までの範囲です。それらは保護されておらず、匿名で読むことができ、PDF Reader内でドキュメントを検索できます。

それらはSiteMap.xmlにリストされています。 IISログを見て、GooglebotがPDFファイルを読んでいるのを確認することもできますが、5つを除いて、それらが検索結果に含まれることはありません。

Filetye:pdfを実行すると、5つのPDFしか表示されませんでした。 PDF内にあることがわかっているテキストを検索した場合、PDFは表示されません(インデックスに登録されている5つを除く)。

サイトマップにありGooglebotがそれらを読んでいるにもかかわらず、なぜ45以上のPDFドキュメントがインデックスに含まれていないのか、誰にもわかりませんか?

15
Jim Biddison

すべてのPDFは同じ場所にありますか?かつて、pdf-locationsの1つがrobots.txtによって除外されたフォルダー内にあったという問題がありました。サイトマップをgoogle-webmasterツールサイトに直接送信すると、PDFが表示されない理由に関する貴重な情報を入手できます。私の場合、グーグルは「ねえ、これら54のPDFドキュメントはサイトマップ上にありますが、robots.txtの制限のためにインデックスを作成できません」と言った。とても役に立ちました。ただし、コメンテーターの発言に留意すると、この情報が表示されるまでしばらく時間がかかることがあります。

Googleウェブマスターツール: https://www.google.com/webmasters/tools

4
markus

Googleがコンテンツを最初に読み込んでからインデックスに表示されるまでにかなりの時間差があります。最近、サイトを再起動し、起動時にGoogleにサイトマップを送信しました。新しいページが検索結果に表示されるまでに約3週間かかりました。

サイトマップ経由でこれらのPDFを送信したのはいつですか?

(索引付けされている5つを除く)

PDFのインデックスが作成されているようですが、少し時間がかかります。インデックス化されていないPDFの生成方法に違いがないと仮定すると、インデックスの更新だけに時間がかかっていると思われます。

わずかな接線で、私がサインアップすることをお勧めする便利なツールの1つは Google Webmaster です。これは、クロール速度、サイトの問題、サイトマップ、Googlebotから1日以内のインデックス作成を示しますサイトにアクセスします。 IISログを調べる時間を少し節約できます。

1
ConroyP

手動で Googleに送信 することができます。これにより、プロセスが高速化されることがあります。

0
srand

PDFファイルのOCRはスキャンされ、テキストが選択可能および検索可能になりましたか?または、PDFファイルはOCRなしでスキャンされますか?その場合、テキストは大きな画像として保存されますか? PDFがすべての画像である場合、Googleが(まだ)インデックスを作成できるとは思わない。または、Googleは今までにあなたのページを見つけましたか?

0
Bratch