web-dev-qa-db-ja.com

MicrosoftWordのヘブライ語母音に関する奇妙な問題

私はヘブライ語のMicrosoftWord文書を持っていますが、母音のマークのいくつかは、それらが下にあるはずの文字とは別のようです。

例:

enter image description here

文字列アナライザー を使用して、これが発生している文字が通常のヘブライ文字ではなく「アルファベット表示形」として解釈されていると判断しました。 (上記の例では、点線のジンメルのユニコード値は、U + 05BCのU + 05D2ではなく、U + FB32でした。)

母音が正しく表示されるように、すべてを標準のヘブライ文字に変換する方法はありますか?

ありがとう!

4
Dave

このniqqudを試してください add-on 、おそらく何かがあなたがniqqudを追加した方法を台無しにしました。

1
matan129

テストドキュメント はWord 2007で正常に表示されるようですが、テキストをコピーして BabelPad エディタに貼り付けると、同じように間違って表示されます。画像。 BabelPadコマンドのConvert→NormalizationForm→ToNFCを使用すると、表示が修正されます。

問題は、U + FB32 HEBREW LETTER GIMEL WITH DAGESHのような合成済み文字自体ではなく、その後のU + 05B7 HEBREW POINTPATAHのような追加の結合マークと関連しているようです。一部のプログラムは、完全に分解された形式(ベース文字の後に2つの結合マークが続く)を処理できても、そのような組み合わせを処理できません。

文字の組み合わせがどのようにファイルに入ったかを知ることは不可能です(そしておそらく無関係です)。これらは有効なUnicodeデータですが、正規化されておらず、正規化するとおそらく問題が解決します。ここでは、Unicode正規化形式のいずれかを実際に使用できるようですが、一般的な理由からNFCが好まれることがよくあります。

私の知る限り、Wordには正規化用のツールがないため、外部ツールを使用する必要があります。 BabelPadはプレーンテキストに適していますが、大きなファイルをどれだけうまく処理できるかわかりません。おそらく、保持する必要のあるフォーマットがいくつかあります。したがって、ファイルをHTMLとして保存し、データをNFCに正規化してから、そのように変更されたHTMLファイルをWordで開くことができます(私は最初にRTFですが、WordはRTFこれには実際のヘブライ文字は含まれていませんが、いくつかのエスケープ表記が含まれているようです。)

0

コメントとして入れることができなかったので、回答として提出します。 @Jukka K. Korpelaの提案に基づいて、合成済み文字を「通常の」文字に変換するWordマクロを作成しました。ダウンロードできます こちら

0
Zeke