web-dev-qa-db-ja.com

サブセットフォントが埋め込まれたPDFからテキストを抽出する方法

Pdftotext of xpdfは、通常の埋め込みフォントファイルでは正常に機能しますが、埋め込みサブセットフォントがある場合は失敗します。この問題の回避策はありますか?

1

問題はおそらく、サブセットフォントを使用してレンダリングされる文字にカスタムエンコーディングがあることです。文字の数値表現は、ASCII、Latin-1、またはその他の一般的なエンコーディングに対応していません。

見る

これは、簡単な回避策がないことを意味します。

2
RedGrittyBrick

この状況で、Adobe PDFプリンターを使用して、高解像度(1200 dpi +)、高品質の画像(可能な限りの設定)でPDFを印刷しました。次に、画像をOCRします= PDF検索可能で実行可能なPDFを残します。

何千ページにもわたって実行するPDFが多数ある場合、複数のPDFウィンドウを一度に開いて、複数のPDFに対して複数のコアを使用して同時にこれを実行しました。これはPITAですが、機能します。

うまくいけば、あなたのファイルは小さいです!私はこれを10,000ページ以上に一度行ったことがあります(コードブックの作成)。楽しくない。

2
Damon