web-dev-qa-db-ja.com

pdf、doc、pptをhtml5に変換

私はopen source software that can convert doc, ppt, and pdf to HTML5.(まさに Scribd が行うこと)Scribdが行う変換のタイプに相当するオープンソースはありますか?

誰かが有料サービスを知っていれば、それも機能します。 Scribdには [〜#〜] api [〜#〜] がありますが、これはフラッシュビューアーで使用するためのものです。また、変換されたhtmlドキュメントをさらに制御する必要があるため、自分のコンテンツをホストするが必要です。

39
KevMo

特にオープンソースの世界では、これをすべて行う単一の製品を見つけることはまずありません。物事のミッシュマッシュに頼ることになる可能性が高く、HTMLに到達するためにいくつかのコンバーターをチェーンする必要さえあります。 (例PDF-> ps-> HTML)

OpenOfficeはHTMLへの変換をサポートしており、コマンドラインから呼び出すことができます。

http://pdftohtml.sourceforge.net/ は、pdfをhtmlに変換するのに適度に見えます。

Word MLまたはOpenXML形式のDocでは、入力形式と出力形式の両方がXMLであるため、XSLT変換を使用できると考えられます。私はこれを行うネットの周りに浮かんでいるいくつかのスタイルシートを見ましたが、YMMVです。

ちなみに、なぜオープンソースに特定の要件があるのですか?たとえば、MS PowerPointは既にHTMLとして保存をサポートしています。

15
imoatama

Open Officeはpdfをhtmlに変換しますが、品質を設計するためにヒットします。

Crocodoc 有料サービスとして(Python、Ruby、Java、PHPなどのプラットフォームごとに異なるフレーバーを提供します APIで)。または、公式のAdobeツールを待っています(作業中です)。

5
Mark Essel

PDFをHTMLに変換する場合、pdf2htmlEXは非常に優れたツールのようです(すべてのサンプル/サンプルを見ると):

https://github.com/coolwanglu/pdf2htmlEX

3
amit_saxena

http://wvware.sourceforge.net/

wvHtml:WordドキュメントをHTML4.0に変換します。

おそらく: http://www.abisource.com/ しかし、この場合は「open doc」>「export html」のように見えます。プラグインが役立つかもしれません。わかりませんが、どういう意味ですか:「変換可能なソースソフトウェア」。

またはこれ: http://www.zope.org/Members/sf/NuxDocument

また、pdftohtmlはhtmlページの出力を提供しますが、グラフィカルインターフェイスで作業する必要があります。あまりインタラクティブではないようです。

1
PF4Public

Pdfには、mozillaによって開始されたオープンソースプロジェクトがあり、非常に優れています。 https://github.com/mozilla/pdf.js/

Hello Worldの例を見ることができます: https://github.com/mozilla/pdf.js/tree/master/examples/helloworld

残りのドキュメントタイプについては、LibreOfficeがhtml5で何かを構築することを計画していると思いますが、今のところ何も行われていません。

1
Doua Beri