PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか?変換が高速なアプリケーションを探しています。口径測定を試しました。コンバージョンの2%にも達していない10分なので、口径はなく、CLIをお勧めします。
pdftotext
を試す必要があります(Ubuntuのパッケージpoppler-utils
で提供されます)。コマンドラインコンバーターです。 PDFにはテキストがあり、画像のみで構成されているわけではありません。
PDFファイルが画像(OCR情報なし)で構成されている場合)、OCRソリューションを使用する必要があります。
PDFスクランブルされたテキスト(ページに個々の文字をノンリニア方式で配置することにより)でOCRメソッドを正常に使用しました。次に、たとえばpdftoppm
を使用して個々の画像を取得しますページとOCRのそれらの。
私は通常、さまざまな形式(epub、mobi、pdf)から変換するために Calibre を使用します。これで変換するのは非常に簡単です。ここにスクリーンショットを示します。 others と video tutorial もあります。
PDFファイルに対して1回これを行う必要があり、これが結果でした(popplerからpdftohtmlを使用)):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".Zip
zip "$pwddir"/"$1".Zip *
ZipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。
すべてのPDFファイルは異なります-明確な解決策はありません。上記は特定のケースで機能しました-pdftohtml/pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。
これが失敗してOCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。