web-dev-qa-db-ja.com

DJVUをPDFに変換

DJVUドキュメントをPDFドキュメントに変換し、テキストレイヤーimagesまた、DJVUから構造を保持します。 Ubuntuでこれを行うにはどうすればよいですか?

(それから Calibre を使用してePub/Mobiに変換するので、このプロセス全体にCalibreプラグインがあれば完璧です!)

注1:Evinceからの印刷、DJviewからのエクスポート、またはパッケージ ddjv を使用したものは、notテキストレイヤーを破棄し、画像のみを保存するための適切なソリューション

注2: DJVULibre を使用すると テキストレイヤーのみが抽出され、画像は抽出されません と思われます。同様に、テキストを「手動で」コピーすると、ドキュメント構造と写真の両方が失われます。

38
hayd

方法1

DJViewを使用してPDFとしてエクスポートするだけです

  1. Goto Synaptic Package Manager
  2. DJview4をインストールする
  3. DJviewの実行(アプリケーション-グラフィックス-DJView4)
  4. .djvuドキュメントを開きます
  5. :メニュー-エクスポート形式:PDF

方法2

Evinceでdjvuファイルを開きます
印刷を選択---->ファイルに印刷
。psを.pdfに変更し、[印刷]をクリックします

方法3

  1. Goto Synaptic Package Manager
  2. インストール

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. 端末に移動して書き込み

     Sudo apt-get install libtiff-tools
    
  4. Djvuファイルが存在するディレクトリに移動します。マウスの右ボタンをクリックします。 「ターミナルで開く」オプションに移動します。クリックして。ターミナルが開きます。

  5. その端末に書き込みます

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

方法4

オンラインコンバーターもあります DjVuからPDFコンバーター

37
Ashu

あまり一般的ではないツールを必要とする1つの方法を次に示します。

  1. ocrodjv
  2. pdfbeads 、それはGoogleが見つけることができる独自の要件を持っています

djvu2hocrコマンド(ocrodjvuパッケージから)を使用して、DjVuファイルから非表示のテキストレイヤーを抽出できます(OCRなどを実行せず、ジオメトリを持つテキストレイヤーのみを抽出します)。

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed介入により、出力hOCR(単なるHTMLファイル)のクラス名が修正されます

ここで、DjVuページをTIFF形式に抽出します。

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

これらのファイルを作業フォルダーに入れて終了します。

sample.djvu
pg10.html
pg10.tif

これがpdfbeadsの出番であり、単純に実行します:

pdfbeads -o pg10.pdf

次に、この気の利いたプログラムは、このフォルダー内にあるすべてのもの(同じベース名を持つHTMLおよびTIFFファイル)を処理し、いくつかの副産物を含む出力PDFファイルを生成します。

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

入力DjVuファイルと同一で、内部にテキストレイヤーがあります。

enter image description here

コメントの要約:

以下の長いコメントでは、DjVuドキュメントページの小さな画像を個別のオブジェクトとして表現することについて説明します。 DjVuドキュメントにカラー画像がある場合、通常は背景レイヤーに配置されます。この場合、ユーザーはddjvu(背景レイヤーのみを抽出)やimagemagick(自動トリミング)などのツールを利用して、キャンバス全体ではなく画像のみを出力できますが、作成用に自動化することはできませんPDF出力

別の賢明だが遅いアプローチは、通常のOCR GUIツールの使用です。 gscan2pdf(> 1.0)は、Linux PCの候補として提案されています

17
zetah

djvu2pdf がありますが、ghostscriptに依存しているため、別の印刷オプションになる可能性があります。私がそれを信用するよりも賢い場合のために、私はまだあなたにそれを見てみることを勧めます。

リポジトリにはありませんが、メーカーのサイトからdebをダウンロードできます。 http://0x2a.at/s/projects/djvu2pdf

**リポジトリの外部からのダウンロード/インストールに関する必須通知をここに挿入します**

4
Oli

DJVULibre を使用すると、terminalコマンドでテキストレイヤーを抽出できます。

djvutxt myfile.djvu > myfile-ocr.txtまたはdjvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(どちらも同じことを行い、見つかった ここ

フォーマットには多少の労力が必要であり(多くのシンボルが適切に変換されないため)、画像は復元されません

4
hayd

最も簡単な方法:gscan2pdfを使用してdjvuをインポートし、次にtesseractでOCRし、最後にpdfとして保存します。 PDFのOCRされたテキストは元のdjvuとは若干異なる場合があり、変換にはしばらく時間がかかる場合がありますが、この方法は簡単であり、機能します。

0
Fazul

@zetahの回答のスクリプトを作成しました。

ここから入手できます: https://Gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

0
matthieu

http://www.djvu-pdf.com/ -このWebサイトを使用すると、djvuをpdfに変換できます。

0