私のチームと私は pdf2htmlEX変換 を実装して、Webサイトで200k以上のpdfドキュメント(データベースで利用可能)を変換して表示しています。
Pdf2htmlEXによって生成されたHTMLは「ページ内」に配置され、各ドキュメントの最大3ページまで検索エンジンによってクロール可能です。今日、お知らせするために、PDFの代わりにPNGのコレクションを表示しています。
Pdf2HTMLExライブラリはUXの点では優れた機能を発揮しますが、生成されるHTMLテキストは<span>
および<div>
タグでいっぱいであり、Googleが理解するのが困難になる場合があります。
このような:
21. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market </div>
私の質問は:
SEOに関して言えば、テキストは何もないよりも優れています(png)。 pdf2HTMLExの出力は人間には恐ろしく見えますが、ボット(googleクローラーなど)、その非常に重度にマークされたサイト、ほとんどの場合、ボットはマーキングを無視します(テキストの色、可視性、フォントサイズなどの場合を除く)可読性に影響します)。
しかし、より大きな問題は、タグが多すぎることではなく、重要/キーワードがしばしばタグ間で分割される方法にあります。
そうは言っても、pdf.js
という別の代替手段があります。これは、懸念事項の一部に対処できるテキストのレイヤーを使用します。 pdf2htmlex
とpdf.js
の両方の出力を試して、どちらがより良いかを確認してください。
Divとspanが心配な場合は、削除できます。 Pandoc のようなツールにHTMLを渡すことをお勧めします。
Pandocはコマンドラインファイルコンバーターです。PDFを入手したら、Pandocコンバーターを使用してHTMLをMarkdownに変換してから、HTMLに戻すことができます。これにより、不要なタグがすべて削除され、マークアップが大幅にクリーンアップされます。
Bashを使用している場合、この行で実行する必要があります。
cat example.html | pandoc --from=html --to=markdown | pandoc --from=markdown --to=html
SEOに関する限り、それが重要になるかどうかはわかりません。さらに重要なのは、セマンティックマークアップとコンテンツの品質です。品質はPDFと同じくらい良いでしょう。とにかく、html2pdfツールが非常に意味のあるマークアップを提供してくれるとは思いません。最も重要なのは、テキストが機械可読であることであり、span
タグとdiv
タグに関係なく、そうであるべきです。