web-dev-qa-db-ja.com

文字の欠落や不一致を回避するために必要な中国語のロケールはどれですか?

Arch Linuxは、/etc/locale.genに次の異なる中国語ロケールをリストしています。

#zh_CN.GB18030 GB18030
#zh_CN.GBK GBK
#zh_CN.UTF-8 UTF-8
#zh_CN GB2312
#zh_HK.UTF-8 UTF-8
#zh_HK BIG5-HKSCS
#zh_SG.UTF-8 UTF-8
#zh_SG.GBK GBK
#zh_SG GB2312
#zh_TW.EUC-TW EUC-TW
#zh_TW.UTF-8 UTF-8
#zh_TW BIG5

これらのロケールは地域固有です(中国本土、香港、シンガポール、台湾を表し、これには日本と韓国も含まれません)が、地域ごとに複数のロケールがあります。

文字の非体系的な性質と、そのような広い使用領域に広がっているため、漢字をUTFに組み込むプロセスは簡単ではありませんでした。使用法は地域によって異なります。同じキャラクターのバリエーションは数多くあり、政治的および文化的要因も役割を果たしており、単一の地域内であっても、手書きだけでなく、公式のものよりも特定のキャラクターのバリエーションを使用することを好む場合があります。

技術的な問題のいくつかは、素人の言葉で説明されています ここ

私が理解しているのは、繁体字中国語と簡体字中国語で同じ文字(你など)と、同じカテゴリの「簡体字」内の同じ文字の異なるバリエーションOR "traditional 」は同じコードポイントを取得し、文字バリアントは異なるフォントを使用して実装されます。

対照的に、十分に異なるバージョン(たとえば、からや從などの異なる簡略化された繁体字と繁体字)は異なるコードポイントを取得するため、同じ文字の複数のバージョンを同じフォントに含めることができます。

この織り交ぜ(簡略化された、伝統的な、文字のバリエーションはすべてUTFに組み込まれています)は、なぜこれらの異なるロケールがすべて中国語に必要なのか、そしてユーザーとしてそれらすべてをインストールする必要があるのか​​という疑問につながります。


十分なフォントがインストールされているシステムの場合(表示されるすべての文字のグリフがシステムに存在します):

これらのロケールのうち、ほとんどの文字を正しく表示する必要があるのはどれですか?

どの中国のエンコーディングがすでに別のエンコーディングに組み込まれていますか(たとえば、UTFはBig5またはASCIIのような他の中国のエンコーディングと下位互換性があります)?

5
Philipp

私は中国の政治を避け、中国語の知識の欠如を避けるために西洋の例を使用しますか????。

それらをカバーするフォントがない場合、コンピューターで正しくレンダリングされない可能性のあるいくつかの文字を使用します。これはUnicodeまたはこのサイトのHTMLの制限ではなく、コンピューターのフォントの制限です。 [a] (この投稿の最後を見てください)。

コードポイントがありません

あなたの説明:

これらのロケールは地域固有です(中国本土、香港、シンガポール、台湾を表し、これには日本と韓国も含まれません)が、地域ごとに複数のロケールがあります。

はい、でもキャラクター的には関係ありません。すべて同じ文字[b] すべての国でご利用いただけます。

[b] 技術的には、UTF(8、16、32など)、GBK、GB2312、BIG5-HKSCS、EUC-TWUTF-8、BIG5の各エンコーディングですべて同じコードポイントを使用できます。これは、 コードページ437コードページ862 (2つのランダムなものを選択するため)の違いに似ています。どちらもすべてのASCII範囲0-127を共有し、それぞれが特定の言語をカバーしようとします。コードページ437は、元のIBM PC(パーソナルコンピューター)の文字セットであり、一般的な使用法をカバーしようとします。コードページ862は、ヘブライ語のDOSで使用されるコードページです。したがって、すべてのGB2312は、同じコードポイントに同じ番号を使用し、どの国でも同じコードポイントを使用できます。

allコードポイント(そして私はall)がで利用可能であることを理解してくださいUTF(任意のバージョン)。

複数の国がある理由は、日付形式、曜日名、通貨名、およびその他すべての要素を処理するためです。文字ではありません。

それはあなたのタイトルの最初の部分をカバーしています:

欠落を避けるために必要な中国語のロケール...

UTF(現在はおそらくutf-8)を使用している国(US、GB、FRなどany)を選択して、忘れてくださいmissing文字、まあ、やはりコードポイント。


不一致の画像

私はWordの文字ではなく画像を使用したことに注意してください。理由は、説明するのに長いです。

書記素

上で説明したように、コードポイントは、音やアイデアを表現するために使用される画像と同じではありません。人間の言語は、その単純な説明よりもはるかに複雑です。書記素が何であるかについての実用的な説明を得るために、ウィキペディア(私の強調)を引用することができます:

書記素 言語学では、書記素は特定の言語の書記体系の最小単位です。 1 個々の書記素は、それ自体で意味を持っている場合と持っていない場合があります。話されている言語の単一の音素に対応していません。書記素には、アルファベット、活版印刷の合字、漢字、数字、句読点、およびその他の個々の記号。書記素は、言語資料の一部を独立して表すグラフィック記号として解釈することもできます。

つまり:グラフィックシンボルと言っているのと少し似ています。

ただし、次のように説明されているように、記号はsound(西洋のスクリプトでは)と1対1の関係にない可能性があります。

The Word Burger ワードバーガー

twooには1つの音があります。

また、Word spoonのイメージとしての単一のアイデア(意味)に関連していません。つまり、次のとおりです。 Spoon いくつかのアイデアに関連している可能性があります。

形態素

そして、中国語はさらに豊富です(文字数で):

...中国語の書記体系は、意味または形態素(つまり単語)の単位を表す無制限の文字またはロゴのセットで構成されています。他の言語と同様に、中国語には数千の単語があります。中国語の書記体系では、それぞれの固有の形態素を表すために数千の文字が必要です。

グリフ

また、各logograph(意味の単位を表す)には、複数の画像が含まれる場合があります。

lower case letter "a"

小文字の「a」を表すさまざまなグリフ。書記素「a」の異字体です

したがって、タイトルの2番目の部分に対する答えは、単純な「文字番号のリスト」(コードポイント)よりも本質的に複雑です。

単純な「R」のように見えるものは、ラテン文字または 数学記号 (????、????、????、????および??? ?は数学記号のほんの一例です)またはアクセント付き(Ŕ、Ř、Ȑ、ȒまたはɌなど)です。したがって、実際には、oneの単純な「R」はありませんが、いくつかあります。

フォント

[a]このさまざまなコードポイントをすべて表示できるようにするには、fontsが必要です。

フォントには、coverageという概念があります。 含まれるコードポイントの数

極端な(非常に大きなファイル)例は allvisible)BMP by Unifont のコードポイント。

例えば、 ???? (U + 1110C CHAKMA LETTER CAA) Chakma Alphabet はあなたが見る予定の手紙ではありませんが、 nifont に含まれています。

Code20 のように、優れたカバレッジを持つ他のオープン(無料)フォントがあります

そして 能登

中国語のさまざまなフォントの例は このウィキペディアのWebページ

enter image description here

4
Isaac