PDFをHTMLに変換するにはどうすればよいですか？

Question

PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか？

John Thorhauer · Answer

ApacheのPDFBoxにはhtml抽出機能があります。 http://pdfbox.Apache.org/

William Daniel · Answer

Windowsボックスで作業している場合、 Amyuni にもこのためのライブラリがあると思います。それらのPDF Document ConverterはDLLとしてアクセス可能であり、Visual Studioでサポートされている言語間で広く使用でき、RTF、TML、Excel、JPEG、およびTIFFに変換できます。

Zon · Answer

Linuxの場合インストール pdftohtml -フォルダ内のすべてのファイルをバッチ変換するには、次を使用します。

ls *.pdf | xargs -I{} pdftohtml {}

これにより、元のドキュメントからのすべての参照と画像を含むhtmlサイトが作成されます。個別のhtmlファイル内のすべてのページ。一般的なシステムファイル検索を使用して、プロジェクトのドキュメントをフレーズごとに検索するように変換するのに非常に便利です。

AZ_ · Answer

http://www.lowagie.com/iText/ 両方のオープンソースライブラリJava =およびC＃

Karsten W. · Answer

pdftohtml プログラムは、pdfをhtmlおよびxmlに変換し、テーブルのスクレイピングに役立つテキストの位置情報を保持します。

これはxpdfライブラリに基づいているようで、Windowsバイナリもあります。

Karim · Answer

元の質問のあいまいさを考慮して、先に進み、コマンドラインアプリを実行できるすべての言語で機能するソリューションを提供します。セットアップを行うのは少し難しいかもしれませんが、 OpenOffice はサーバー上でヘッドレスモードで実行でき、 jodconverter の助けを借りて、任意のファイル形式をに変換できます。その他のファイル形式（つまり、openofficeが処理できる形式変換）。

セットアップに役立つリンクをいくつか示します。

Ether · Answer

Perlでは、 SWISH :: Filter プラグイン SWISH :: Filters :: Pdf2HTML を使用できます。（ xpdfパッケージが必要です。）

逆（HTMLからPDF）については、この質問を参照してください。

Russ Bradberry · Answer

PDFをHTMLに1回または2回変換する方法を探しているなら、私はお勧めします Adobe Online Conversion

それがあなたが求めているAPIの場合、 http://www.pdfonline.com/ には、ニーズに合ったSDKがあります。

探しているライブラリの場合は、どのサーバーサイド言語を使用するかをお知らせください。