PDFを電子書籍形式に変換する方法

Question

PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか？変換が高速なアプリケーションを探しています。口径測定を試しました。コンバージョンの2％にも達していない10分なので、口径はなく、CLIをお勧めします。

Anthon · Accepted Answer

pdftotextを試す必要があります（Ubuntuのパッケージpoppler-utilsで提供されます）。コマンドラインコンバーターです。 PDFにはテキストがあり、画像のみで構成されているわけではありません。

PDFファイルが画像（OCR情報なし）で構成されている場合）、OCRソリューションを使用する必要があります。

PDFスクランブルされたテキスト（ページに個々の文字をノンリニア方式で配置することにより）でOCRメソッドを正常に使用しました。次に、たとえばpdftoppmを使用して個々の画像を取得しますページとOCRのそれらの。

slm · Answer

私は通常、さまざまな形式（epub、mobi、pdf）から変換するために Calibre を使用します。これで変換するのは非常に簡単です。ここにスクリーンショットを示します。 others と video tutorial もあります。

スクリーンショット

ss of calibre

スクリーンショット

ss of calibre

frostschutz · Answer

PDFファイルに対して1回これを行う必要があり、これが結果でした（popplerからpdftohtmlを使用））：

#!/bin/bash pwddir="`pwd`" tmpdir="`mktemp -d`" pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index cd "$tmpdir" sed -e :a -e '$!N;s/
/ /;ta' \ -i index.html sed -e 's@&#160;@ @g' \ -e 's@<hr>@ @g' \ -e 's@<br/>\s*<br/>@</p><p>@g' \ -e 's@<br/>@ @g' \ -i index.html tidy -utf8 -i -wrap 9999999 -m index.html sed -e 's@<a name="[^"]*"></a>@@g' \ -i index.html rm "$pwddir"/"$1".Zip zip "$pwddir"/"$1".Zip *

ZipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ（色、フォントなど）をフィルタリングします。

すべてのPDFファイルは異なります-明確な解決策はありません。上記は特定のケースで機能しました-pdftohtml/pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。

これが失敗してOCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。