web-dev-qa-db-ja.com

ペルシア語のPDFファイルをMicrosoftWord形式に変換する方法は?

ペルシア文字のPDFファイルがあります。これは Right-to-Left です。ペルシア語はUTF-8形式を使用しているため、Microsoft Wordでプレーンテキストに変換できません。また、テキストをコピーして貼り付けることもできず、結果として判読できない文字になります。 nipdf やe-Pdf Converterなどのソフトウェアをたくさん試しましたが、変換後も文字が正しく表示されません。 OCRも試しましたが、同じ問題が発生しました。 PDFにはパスワードや制限はありません。

他に何かアイデアはありますか?

編集:実際にMS Wordでファイルを作成し、それをPDFに変換しようとしましたが、その後もPDFファイルで同じ問題が発生しました。(エンコードもわかっていました)

1
Mehdi

非常に多くの場合、非ラテン文字(特にアラビア語、ヘブライ語、ペルシア語などのRTLスクリプト)のPDFファイル)は、Wordまたは文のフラグメントレベルでテキストをLTR化するソフトウェアによって生成されます。 、またはどういうわけか表示する適切なグリフを取得しますが、「論理」テキストがぎこちなくなります。これらの場合、事実上オプションではないカスタムバックコンバーターを作成する以外に行うことはほとんどありません。

ただし、ファイルがどのように作成されるかを理解できる場合(これは、一般的なPDFリーダーを使用してアクセスできるメタデータに示されることが多い))、アプリケーションでファイルを開くオプションがある可能性があります。それを生成しました、または少なくともあなたはあなたの質問をより具体的にすることができます。

1
einpoklum

私は現在、PDFを編集可能なペルシア語のテキストに変換する作業を行っています。私が見つけた最善の解決策は、次のようにgoogledocを使用することです。

  1. PDFページを画像に変換する必要があります。これには、Adobe acrobatリーダー(無料のAdobeリーダーではありません)を使用するか、LinuxではGIMPを使用してPDFを開き、各ページを別々の画像で開くことを選択します。それはあなた自身の選択です。
  2. 画像ファイルをGoogleドライブにアップロードする
  3. Googleドライブに移動し、各画像を右クリックして、[open with google doc]をクリックします。
  4. グーグルドキュメントがあなたの画像から編集可能なテキストを開くまで待ちます
  5. Wordにコピーする

自動化された方法があるかどうかはわかりません。これを自動的に行うためのアプリケーションを作成する時間があればいいのですが。

0
Merlin

答えるには遅すぎることはわかっていますが、同じ質問がある人には、ペルシア語のOCRである Delix.ir とWordコンバーターへのPDF)を提案できます。

免責事項:私はdelix.irの創設者であり、広告として扱われないことを願っています。

0
Amirreza Nasiri

PDFファイルをWordに変換する際にも同じ問題が発生しました。 Wordでコピー&ペーストした後、フォーマットが変更され、問題が発生しました。私はいくつかのオンラインコンバーターを試しましたが、それらも失敗しました。
機能した唯一の方法は次のとおりです。

  1. Adobe Acrobat ReaderでPDFファイルを開き、ファイルメニューから[印刷]を選択します。プリンター名から、Adobeacrobatを選択します。はい、PDFからPDFを作成しようとしています!
  2. Google Chrome(ファイルをChromeにドラッグアンドドロップ)で新しいPDFファイルを開きます。
  3. ここで、すべてのテキスト(ctrl + A)を選択し、それをコピーして空のWordファイルに貼り付けます。
0
saeed ghasemi