PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?
ApacheのPDFBoxにはhtml抽出機能があります。 http://pdfbox.Apache.org/
Windowsボックスで作業している場合、 Amyuni にもこのためのライブラリがあると思います。それらのPDF Document ConverterはDLLとしてアクセス可能であり、Visual Studioでサポートされている言語間で広く使用でき、RTF、TML、Excel、JPEG、およびTIFFに変換できます。
Linuxの場合インストール pdftohtml -フォルダ内のすべてのファイルをバッチ変換するには、次を使用します。
ls *.pdf | xargs -I{} pdftohtml {}
これにより、元のドキュメントからのすべての参照と画像を含むhtmlサイトが作成されます。個別のhtmlファイル内のすべてのページ。一般的なシステムファイル検索を使用して、プロジェクトのドキュメントをフレーズごとに検索するように変換するのに非常に便利です。
http://www.lowagie.com/iText/両方のオープンソースライブラリJava =およびC#
pdftohtml プログラムは、pdfをhtmlおよびxmlに変換し、テーブルのスクレイピングに役立つテキストの位置情報を保持します。
これはxpdfライブラリに基づいているようで、Windowsバイナリもあります。
元の質問のあいまいさを考慮して、先に進み、コマンドラインアプリを実行できるすべての言語で機能するソリューションを提供します。セットアップを行うのは少し難しいかもしれませんが、 OpenOffice はサーバー上でヘッドレスモードで実行でき、 jodconverter の助けを借りて、任意のファイル形式をに変換できます。その他のファイル形式(つまり、openofficeが処理できる形式変換)。
セットアップに役立つリンクをいくつか示します。
Perlでは、 SWISH :: Filter プラグイン SWISH :: Filters :: Pdf2HTML を使用できます。 ( xpdfパッケージ が必要です。)
逆(HTMLからPDF)については、 この質問 を参照してください。
PDFをHTMLに1回または2回変換する方法を探しているなら、私はお勧めします Adobe Online Conversion
それがあなたが求めているAPIの場合、 http://www.pdfonline.com/ には、ニーズに合ったSDKがあります。
探しているライブラリの場合は、どのサーバーサイド言語を使用するかをお知らせください。