これまでのところ、Unicode文字、コードポイント、BMP(Basic Multilingual Plane)以外の範囲)が最も一般的ですか?これらはUTF-8の4バイトまたはUTFのサロゲートを必要とするものです-16。
私は答えが名前に使用されている中国語と日本語の文字であると予想していましたが、最も普及しているCJKマルチバイト文字セットには含まれていませんでしたが、私が最も取り組んでいるプロジェクト、英語のウィクショナリーでは、 ゴシックアルファベット はこれまでのところはるかに一般的です。
[〜#〜] update [〜#〜]
ウィキペディア全体で非BMP文字をスキャンするソフトウェアツールをいくつか作成しましたが、驚いたことに、日本語のウィキペディアでもゴシックアルファベットが最も一般的です。これは中国語版ウィキペディアにも当てはまりますが、「????」、「????」、「????」など、最大50または70回使用される多くの中国語文字もありました。
絵文字は現在、最も一般的な非BMP文字です。 ????、別名U + 1F602 FACE WITH TEARS OF JOYは、Twitterのパブリックストリームで最も一般的なものです。チルドよりも頻繁に発生します!
素晴らしい質問です!
答えは数学的な手紙です。昨年12月、PubMed Open Accessコーパス全体をスキャンし、アストラルキャラクターのこれらの数字を見つけました。
下の図の最初の数字は、コーパス全体で見つかった特定のコードポイントのコピーの数です。ただし、最初に、相対頻度の概念を示すために、そのコーパスの上位10個のトランスASCIIコードポイントを次に示します。
2663710 U+002013 ‹–› GC=Pd EN DASH
1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE
1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN
784139 U+002212 ‹−› GC=Sm MINUS SIGN
602377 U+002003 ‹ › GC=Zs EM SPACE
528576 U+0003BC ‹μ› GC=Ll GREEK SMALL LETTER MU
519669 U+0003B2 ‹β› GC=Ll GREEK SMALL LETTER BETA
512312 U+0003B1 ‹α› GC=Ll GREEK SMALL LETTER ALPHA
491842 U+00200A ‹ › GC=Zs HAIR SPACE
462505 U+0000B0 ‹°› GC=So DEGREE SIGN
そして、ここに頻度の降順でのtrans-BMPコードポイントがあります。
544 U+01D49E ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL C
450 U+01D4AF ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL T
385 U+01D4AE ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL S
292 U+01D49F ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL D
285 U+01D4B3 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL X
262 U+01D4A9 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL N
258 U+01D4AB ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL P
254 U+01D4A2 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL G
185 U+01D49C ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL A
178 U+01D53C ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL E
137 U+01D4AA ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL O
56 U+01D4A5 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL J
48 U+01D4A6 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL K
44 U+01D4B1 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL V
43 U+01D4B2 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL W
42 U+01D4B4 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL Y
41 U+01D4B5 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL Z
35 U+01D4B0 ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL U
30 U+01D4AC ‹????› GC=Lu MATHEMATICAL SCRIPT CAPITAL Q
23 U+01D54A ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL S
21 U+01D539 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL B
19 U+01D5A7 ‹????› GC=Lu MATHEMATICAL SANS-SERIF CAPITAL H
18 U+01D517 ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL T
15 U+01D4C3 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL N
14 U+01D535 ‹????› GC=Ll MATHEMATICAL FRAKTUR SMALL X
13 U+01D4BF ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL J
11 U+01D540 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL I
9 U+01D465 ‹????› GC=Ll MATHEMATICAL ITALIC SMALL X
9 U+01D4CE ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL Y
9 U+01D538 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL A
8 U+01D4C2 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL M
8 U+01D54D ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL V
7 U+01D4B6 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL A
7 U+01D4BE ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
7 U+01D4BE ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
4 U+01D4CF ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL Z
4 U+01D53B ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL D
4 U+01D54B ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL T
3 U+01D4BB ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL F
3 U+01D4CA ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL U
3 U+01D507 ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL D
3 U+01D542 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL K
3 U+01D546 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL O
2 U+01D4BD ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL H
2 U+01D4C5 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL P
2 U+01D505 ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL B
2 U+01D50E ‹????› GC=Lu MATHEMATICAL FRAKTUR CAPITAL K
2 U+01D541 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL J
2 U+01D543 ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL L
2 U+100002 ‹????› GC=Co <private use character>
1 U+01D4B8 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL C
1 U+01D4C1 ‹????› GC=Ll MATHEMATICAL SCRIPT SMALL L
1 U+01D53D ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL F
1 U+01D53E ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL G
1 U+01D54C ‹????› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL U
1 U+01D6A4 ‹????› GC=Ll MATHEMATICAL ITALIC SMALL DOTLESS I
1 U+01D7D9 ‹????› GC=Nd MATHEMATICAL DOUBLE-STRUCK DIGIT ONE
Ireally彼らがU + 100002を使って何をしているのか知っていればよかったのに。 :(
ブラウザに表示されない場合は、 George DourosのSymbolaフォント をインストールする必要があります。また、すべての楽しいUnicode 6.0.0コードポイントも含まれています。
私にとっては、 数学英数字記号 は、Cambria MathなどのOpenTypeフォントでの数学の組版に使用されます。