PDFをHTMLまたは簡単にHTMLに変換できる他の形式に変換するために使用できる適切なライブラリはありますか?
同様の質問を検索しましたが、うまくいきませんでした。
PDFから、場合によっては画像からテキストを抽出できるようにしたいと考えています。 PDFをHTML内に埋め込むつもりはありません。
上記のコメントで述べたように、 here からダウンロードできるツールAble2Extract7を使用してpdfをhtmlに変換することは間違いなく可能です。
私はこのツールをほぼ2年間使用しており、かなり満足しています。このツールを使用すると、PDFをWord、Excel、PowerPoint、Publisher、に変換できます[〜#〜] html [〜#〜]、OO etc.スクリーンショットを見る
インプノート:このツールはフリーウェアではありません。
HTH
Linuxを使用している場合は、pdftohtmlを試してください。
Sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
オープンソースの電子ブックコンバータ Calibre は、PDFファイルをHTMLに変換することもでき、MacOS、Windows、Linuxで利用できます。
PDFファイルをHTMLに単純に「変換」することは技術的に不可能です。PDF形式は、「キャンバス」に似ています。テキストブロックと画像。HTMLはブロックを「配置」するためにCSSまたは多くのテーブルを必要とします。さらに、PDFファイルは画像を埋め込みますが、HTMLは単に他のファイルを呼び出します。
違いの例は他にもたくさんありますが、基本的には、テキストが含まれている画像またはビデオの変換を求めるようなものです。
ただし、PDFファイルから読み取り、ライブラリまたはその他の高度な手法を使用して、そこからテキストと画像を抽出することができます。Netにはいくつかのライブラリがあります。例: http ://forums.asp.net/post/2167442.aspx
1つのファイルを1度だけ変換する必要がある場合は、たとえばIllustratorでpdfファイルを開いて、それをhtmlにエクスポートできます。または、すべてのドキュメント(Ctrl + A)を選択してコピーし、Wordに貼り付けて、結果をHTMLに保存することもできます。それは完璧には程遠いですが、それは始まりです。
ダウンロード
import Java.io.InputStream;
import Java.io.IOException;
import org.Apache.pdfbox.pdmodel.PDDocument;
import org.Apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
注意:画像はHTML出力にプッシュされません。
PDFをHTMLに変換するのはそれほど難しいことではありません。ただし、オンラインオプションは多数ありますが、データがサードパーティに公開される可能性があります。次の手順に従ってください。出力は優れています。
開く PDF2HTMLEXページ 。 (あなたは私が述べた次のステップに従うか、ページからの指示に従うことができます。)
パッケージはWindowsのダウンロードはこちらから入手できます 。
利用可能な多くのオプションから、「pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.Zip(pdf2htmlEx.exeはUPXで圧縮されています)」をダウンロードすることをお勧めします
ダウンロードして解凍すると、変換は1つのcmdコマンドで完了します。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最終コマンド:
pdf2htmlEX.exe c:\1\abc.pdf
(もちろん、フォルダーの名前を短くすることもできますが、ダウンロードを解凍した後の表示と同じにしました。cmdのディレクトリを目的のフォルダーに変更するか、Googleで変更する方法を想定しています。)
abc.pdfはHTMLに変換され、exeと同じフォルダーにabc.htmlとして保存されます。
それが役立つかどうかはわかりませんが、1回限りの変換が必要な場合は、この無料のオンラインツールを試すことができます。 https://www.readkong.com/
このサイトを数回使用しました。元のPDFソースと同一のHTMLを生成します。非常に複雑なPDFであっても、醜く壊れたマークアップ、HTMLマッシュアップなどはありません。