ペルシア文字のPDFファイルがあります。これは Right-to-Left です。ペルシア語はUTF-8形式を使用しているため、Microsoft Wordでプレーンテキストに変換できません。また、テキストをコピーして貼り付けることもできず、結果として判読できない文字になります。 nipdf やe-Pdf Converterなどのソフトウェアをたくさん試しましたが、変換後も文字が正しく表示されません。 OCRも試しましたが、同じ問題が発生しました。 PDFにはパスワードや制限はありません。
他に何かアイデアはありますか?
編集:実際にMS Wordでファイルを作成し、それをPDFに変換しようとしましたが、その後もPDFファイルで同じ問題が発生しました。(エンコードもわかっていました)
非常に多くの場合、非ラテン文字(特にアラビア語、ヘブライ語、ペルシア語などのRTLスクリプト)のPDFファイル)は、Wordまたは文のフラグメントレベルでテキストをLTR化するソフトウェアによって生成されます。 、またはどういうわけか表示する適切なグリフを取得しますが、「論理」テキストがぎこちなくなります。これらの場合、事実上オプションではないカスタムバックコンバーターを作成する以外に行うことはほとんどありません。
ただし、ファイルがどのように作成されるかを理解できる場合(これは、一般的なPDFリーダーを使用してアクセスできるメタデータに示されることが多い))、アプリケーションでファイルを開くオプションがある可能性があります。それを生成しました、または少なくともあなたはあなたの質問をより具体的にすることができます。
私は現在、PDFを編集可能なペルシア語のテキストに変換する作業を行っています。私が見つけた最善の解決策は、次のようにgoogledocを使用することです。
open with google doc
]をクリックします。自動化された方法があるかどうかはわかりません。これを自動的に行うためのアプリケーションを作成する時間があればいいのですが。
答えるには遅すぎることはわかっていますが、同じ質問がある人には、ペルシア語のOCRである Delix.ir とWordコンバーターへのPDF)を提案できます。
免責事項:私はdelix.irの創設者であり、広告として扱われないことを願っています。
PDFファイルをWordに変換する際にも同じ問題が発生しました。 Wordでコピー&ペーストした後、フォーマットが変更され、問題が発生しました。私はいくつかのオンラインコンバーターを試しましたが、それらも失敗しました。
機能した唯一の方法は次のとおりです。