黒と白のテキストスキャンを含むpdfファイルをdjvu形式にロスレスで信頼性が高く圧縮された変換する方法を探しています。変換を細分化できるように、ツールはコマンドラインプログラムである必要があります。 djvulibre
を見つけましたが、ubuntu linuxで必要なドライバーを使用して動作させることができませんでした(ライセンスの問題のため、これらは別々のようです)。 pdf2djvu
には、画像圧縮の損失レベルを調整するオプションがありますが、ソースファイルの解像度を常に正しく検出できるかどうかわからないため、画像のリサンプリングによって損失が発生する可能性があります。他のソフトウェアへのヒント、djvulibre
でのドライバーの問題の解決、またはpdf2djvu
の適切な使用は大歓迎です。
xpdfを使用して、PDFファイル の内部からスキャン画像を抽出できます
次に、imagemagickを使用して各画像をpbm形式に変換します。
convert page-000.png page-000.pbm
次に pbm画像をdjvulibreを使用してdjvuページに変換します 。
cjb2 -clean page-000.pbm page-000.djvu
最後に、新しいページを最終ドキュメントに追加します
djvm -i page.djvu page-000.djvu
プロセスはここで部分的に説明されています: DjVuファイルの作成