DJVUドキュメントをPDFドキュメントに変換し、テキストレイヤーとimagesまた、DJVUから構造を保持します。 Ubuntuでこれを行うにはどうすればよいですか?
(それから Calibre を使用してePub/Mobiに変換するので、このプロセス全体にCalibreプラグインがあれば完璧です!)
注1:Evinceからの印刷、DJviewからのエクスポート、またはパッケージ ddjv を使用したものは、notテキストレイヤーを破棄し、画像のみを保存するための適切なソリューション
注2: DJVULibre を使用すると テキストレイヤーのみが抽出され、画像は抽出されません と思われます。同様に、テキストを「手動で」コピーすると、ドキュメント構造と写真の両方が失われます。
DJViewを使用してPDFとしてエクスポートするだけです
Evinceでdjvuファイルを開きます
印刷を選択---->ファイルに印刷
。psを.pdfに変更し、[印刷]をクリックします
インストール
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
端末に移動して書き込み
Sudo apt-get install libtiff-tools
Djvuファイルが存在するディレクトリに移動します。マウスの右ボタンをクリックします。 「ターミナルで開く」オプションに移動します。クリックして。ターミナルが開きます。
その端末に書き込みます
ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff
オンラインコンバーターもあります DjVuからPDFコンバーター
あまり一般的ではないツールを必要とする1つの方法を次に示します。
djvu2hocr
コマンド(ocrodjvu
パッケージから)を使用して、DjVuファイルから非表示のテキストレイヤーを抽出できます(OCRなどを実行せず、ジオメトリを持つテキストレイヤーのみを抽出します)。
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
介入により、出力hOCR(単なるHTMLファイル)のクラス名が修正されます
ここで、DjVuページをTIFF形式に抽出します。
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
これらのファイルを作業フォルダーに入れて終了します。
sample.djvu
pg10.html
pg10.tif
これがpdfbeads
の出番であり、単純に実行します:
pdfbeads -o pg10.pdf
次に、この気の利いたプログラムは、このフォルダー内にあるすべてのもの(同じベース名を持つHTMLおよびTIFFファイル)を処理し、いくつかの副産物を含む出力PDFファイルを生成します。
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
入力DjVuファイルと同一で、内部にテキストレイヤーがあります。
コメントの要約:
以下の長いコメントでは、DjVuドキュメントページの小さな画像を個別のオブジェクトとして表現することについて説明します。 DjVuドキュメントにカラー画像がある場合、通常は背景レイヤーに配置されます。この場合、ユーザーはddjvu
(背景レイヤーのみを抽出)やimagemagick
(自動トリミング)などのツールを利用して、キャンバス全体ではなく画像のみを出力できますが、作成用に自動化することはできませんPDF出力
別の賢明だが遅いアプローチは、通常のOCR GUIツールの使用です。 gscan2pdf
(> 1.0)は、Linux PCの候補として提案されています
djvu2pdf がありますが、ghostscriptに依存しているため、別の印刷オプションになる可能性があります。私がそれを信用するよりも賢い場合のために、私はまだあなたにそれを見てみることを勧めます。
リポジトリにはありませんが、メーカーのサイトからdebをダウンロードできます。 http://0x2a.at/s/projects/djvu2pdf
**リポジトリの外部からのダウンロード/インストールに関する必須通知をここに挿入します**
最も簡単な方法:gscan2pdfを使用してdjvuをインポートし、次にtesseractでOCRし、最後にpdfとして保存します。 PDFのOCRされたテキストは元のdjvuとは若干異なる場合があり、変換にはしばらく時間がかかる場合がありますが、この方法は簡単であり、機能します。
@zetahの回答のスクリプトを作成しました。
ここから入手できます: https://Gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
http://www.djvu-pdf.com/ -このWebサイトを使用すると、djvuをpdfに変換できます。