web-dev-qa-db-ja.com

PDFを電子書籍形式に変換する方法

PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか?変換が高速なアプリケーションを探しています。口径測定を試しました。コンバージョンの2%にも達していない10分なので、口径はなく、CLIをお勧めします。

8
ManuelSchneid3r

pdftotextを試す必要があります(Ubuntuのパッケージpoppler-utilsで提供されます)。コマンドラインコンバーターです。 PDFにはテキストがあり、画像のみで構成されているわけではありません。

PDFファイルが画像(OCR情報なし)で構成されている場合)、OCRソリューションを使用する必要があります。

PDFスクランブルされたテキスト(ページに個々の文字をノンリニア方式で配置することにより)でOCRメソッドを正常に使用しました。次に、たとえばpdftoppmを使用して個々の画像を取得しますページとOCRのそれらの。

6
Anthon

私は通常、さまざまな形式(epub、mobi、pdf)から変換するために Calibre を使用します。これで変換するのは非常に簡単です。ここにスクリーンショットを示します。 othersvideo tutorial もあります。

スクリーンショット

ss of calibre

6
slm

PDFファイルに対して1回これを行う必要があり、これが結果でした(popplerからpdftohtmlを使用)):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".Zip
zip "$pwddir"/"$1".Zip *

ZipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。

すべてのPDFファイルは異なります-明確な解決策はありません。上記は特定のケースで機能しました-pdftohtml/pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。

これが失敗してOCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。

1
frostschutz