web-dev-qa-db-ja.com

Googleインデックスファイルをデータベースから取得する方法は?

JoomlaとRemositoryを使用して、出版物を保存および管理します(理由は聞かないでください)。ファイル(PDF)はデータベースに保存され、フォームの動的な書き換えられたリンクを介してアクセスできます。

http://domain.de/some/path/filename.html

次に例を示します。 一部のファイル

現在のブラウザは、PDFを取得したことを確実に検出します。 wget.htmlファイル名を使用しますが、名前を変更するとPDFファイルが機能します。 curlは同様に動作します。出力を(適切な名前の)ファイルにパイプすると、作業ファイルが作成されます。これはすべて、私がシステムを提供するデータは一般的に有効であり、クライアントにとって理解可能であると言うかもしれませんが、すべての可能性に反して、私は信じるようになります。

ただし、Googleはそのようなリンクによって参照されるPDFファイルをインデックスに登録していないようです。 パブリケーションリスト はインデックス付けされていますが、そこにリンクされているPDFはインデックス化されていません(WebおよびScholarの検索には表示されません)。

検索ロボットにファイルを取得してインデックスを作成するように指示するにはどうすればよいですか?

1
Raphael

tellすることはできませんが、サイトマップを提供することで強力なヒントを与えるです。 Googleは、サイトマップを使用してこれらのインデックスを作成する場合としない場合があります。 いくつのサイトマップファイルがインデックス付けされたかがわかります。 Googleウェブマスターツールアカウントが必要で、ウェブサイトを登録します。完了すると、サイトマップの送信とインデックスステータスがレポートに表示されます。

検索エンジンの観点からは、実際にはデータの出所は関係ありませんアクセス可能であることだけです。 Googleが気に入らないような空想的なことをしているかもしれませんが、ドキュメントがデータベースにあるということではありません。

あなたが提供したリンクから、不要なドライブバイダウンロードとしてカウントされる可能性のあるリンクをクリックすると、自動的にダウンロードしようとしているものが見えるので、注意してください。リンクがダウンロード用である場合、ページが多すぎます。 mime-typeも確認してください。これらは単にGoogleクローラーを混乱させる可能性があるためです。

1
Itai