web-dev-qa-db-ja.com

PDF)から漢字をコピーする

私はWindows7ラップトップを使用していますが、これにはすべての言語パックがプリインストールされていると思います。漢字は問題なく見え、通常は問題なくコピーできます。 (ブラウザーからMicrosoft Officeまではうまく機能します)。漢字を含むPDFがたくさんあります。それらをコピーして別のプログラム(ブラウザー、Microsoft Officeなど)に貼り付けようとすると、次のような奇妙な外国文字が表示されます。

、ôt¯ıngwˇoshūo聞いてください

これは行をコピーしています。漢字、拼音(ラテンアルファベットの中国語)、英語の翻訳の順です。

各文字の声調マーク(アクセント)が独自のスペースに移動しているため、拼音も混乱しています。

これを修正する方法はありますか?

4
Kevin

サンプルテキストで確認できることから、PDFファイルには中国語テキストのUnicode表現が含まれていません。むしろ、中国語の文字と通常のフォントを表すために特別な埋め込みフォントを使用している可能性があります。中国語のアクセントを表すPinyin:

、ôt¯ıngwˇoshūo

する必要があります

聽我說tīngwǒshuō

分音記号(tīng wǒ shuō)は、いくつかの文字を重ねて作成したものですが、表意文字はまったく表示されていません。の代わりに U+01D2 ために ǒあなたはU+02C7 ために ˇおよびo

このファイル をダウンロードして試してみると、Unicodeとして保存されている中国語の記号をコピーして貼り付けることができるかどうかを簡単に確認できます。これは正しいUnicode PDFであり、Windows 7 Professionalシステム(ドイツ語MUI)上のUnicode対応アプリケーション間で文字をコピーして貼り付けるのに問題はありません。

これが機能しない場合は、システムに中国語フォントのサポートをインストールする必要があります。

それが機能する場合は、PDFファイルを調べて、埋め込まれたフォントを探すことで、おそらく回避策を見つけることができます。インターネットでこれらのフォントを見つけて、システムにインストールしてみてください。意味のない兆候だけではありませんが、これは元の中国の兆候にのみ適用され、拼音を救うことはできません。

2