DJVUをPDFに変換

Question

DJVUドキュメントをPDFドキュメントに変換し、テキストレイヤーとimagesまた、DJVUから構造を保持します。 Ubuntuでこれを行うにはどうすればよいですか？

（それから Calibre を使用してePub/Mobiに変換するので、このプロセス全体にCalibreプラグインがあれば完璧です！）

注1：Evinceからの印刷、DJviewからのエクスポート、またはパッケージ ddjv を使用したものは、notテキストレイヤーを破棄し、画像のみを保存するための適切なソリューション

注2： DJVULibre を使用するとテキストレイヤーのみが抽出され、画像は抽出されませんと思われます。同様に、テキストを「手動で」コピーすると、ドキュメント構造と写真の両方が失われます。

Ashu · Answer

方法1

DJViewを使用してPDFとしてエクスポートするだけです

Goto Synaptic Package Manager
DJview4をインストールする
DJviewの実行（アプリケーション-グラフィックス-DJView4）
.djvuドキュメントを開きます
：メニュー-エクスポート形式：PDF

方法2

Evinceでdjvuファイルを開きます
印刷を選択---->ファイルに印刷
。psを.pdfに変更し、[印刷]をクリックします

方法3

Goto Synaptic Package Manager
インストール

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
端末に移動して書き込み
```
 Sudo apt-get install libtiff-tools 
```
Djvuファイルが存在するディレクトリに移動します。マウスの右ボタンをクリックします。「ターミナルで開く」オプションに移動します。クリックして。ターミナルが開きます。

その端末に書き込みます

ddjvu -format=tiff file_name.djvu file_name.tiff tiff2pdf -j -o file_name.pdf file_name.tiff

方法4

オンラインコンバーターもあります DjVuからPDFコンバーター

zetah · Answer

あまり一般的ではないツールを必要とする1つの方法を次に示します。

ocrodjv
pdfbeads 、それはGoogleが見つけることができる独自の要件を持っています

djvu2hocrコマンド（ocrodjvuパッケージから）を使用して、DjVuファイルから非表示のテキストレイヤーを抽出できます（OCRなどを実行せず、ジオメトリを持つテキストレイヤーのみを抽出します）。

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed介入により、出力hOCR（単なるHTMLファイル）のクラス名が修正されます

ここで、DjVuページをTIFF形式に抽出します。

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

これらのファイルを作業フォルダーに入れて終了します。

sample.djvu pg10.html pg10.tif

これがpdfbeadsの出番であり、単純に実行します：

pdfbeads -o pg10.pdf

次に、この気の利いたプログラムは、このフォルダー内にあるすべてのもの（同じベース名を持つHTMLおよびTIFFファイル）を処理し、いくつかの副産物を含む出力PDFファイルを生成します。

sample.djvu pg10.html pg10.tif pg10.jbig2 pg10.pdf pg10.sym

入力DjVuファイルと同一で、内部にテキストレイヤーがあります。

enter image description here

コメントの要約：

以下の長いコメントでは、DjVuドキュメントページの小さな画像を個別のオブジェクトとして表現することについて説明します。 DjVuドキュメントにカラー画像がある場合、通常は背景レイヤーに配置されます。この場合、ユーザーはddjvu（背景レイヤーのみを抽出）やimagemagick（自動トリミング）などのツールを利用して、キャンバス全体ではなく画像のみを出力できますが、作成用に自動化することはできませんPDF出力

別の賢明だが遅いアプローチは、通常のOCR GUIツールの使用です。 gscan2pdf（> 1.0）は、Linux PCの候補として提案されています

Oli · Answer

djvu2pdf がありますが、ghostscriptに依存しているため、別の印刷オプションになる可能性があります。私がそれを信用するよりも賢い場合のために、私はまだあなたにそれを見てみることを勧めます。

リポジトリにはありませんが、メーカーのサイトからdebをダウンロードできます。 http://0x2a.at/s/projects/djvu2pdf

**リポジトリの外部からのダウンロード/インストールに関する必須通知をここに挿入します**

hayd · Answer

DJVULibre を使用すると、terminalコマンドでテキストレイヤーを抽出できます。

djvutxt myfile.djvu > myfile-ocr.txtまたはdjvused myfile.djvu -e 'print-pure-txt' > myfile.txt

（どちらも同じことを行い、見つかったここ）

フォーマットには多少の労力が必要であり（多くのシンボルが適切に変換されないため）、画像は復元されません。

Fazul · Answer

最も簡単な方法：gscan2pdfを使用してdjvuをインポートし、次にtesseractでOCRし、最後にpdfとして保存します。 PDFのOCRされたテキストは元のdjvuとは若干異なる場合があり、変換にはしばらく時間がかかる場合がありますが、この方法は簡単であり、機能します。

matthieu · Answer

@zetahの回答のスクリプトを作成しました。

ここから入手できます： https://Gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

Curious Apprentice · Answer

http://www.djvu-pdf.com/ -このWebサイトを使用すると、djvuをpdfに変換できます。