U + 4E00..U + 9FFFは完全なセットの一部ですが、すべてではありません
CJK Unicode FAQ (「中国語、日本語、韓国語」の文字を含む)で完全なリストを見つけることができるかもしれません
「 East Asian Script 」ドキュメントには次の記述があります。
漢字を含むブロック
表12-2に示すように、漢字の表意文字はUnicode標準の5つの主要なブロックにあります。
表12-2。漢字を含むブロック
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
注:ブロック範囲は時間とともに変化する可能性があります。最新は CJK Unified Ideographs です。
ウィキペディアもご覧ください。
Unicodeには現在74605個のCJK文字があります。 CJK文字には、中国語で使用される文字だけでなく、日本語の漢字、韓国語のハンジャ、ベトナム語も含まれます Chu Nom 。一部のCJK文字はnot中国語の文字です。
コードポイントU + 4E00からU + 9FCC。
コードポイント + 3400からU + 4DB5 。 Unicode 3.0(1999)。
コードポイントU + 20000〜U + 2A6D6。 Unicode 3.1(2001)。
コードポイント + 2A700からU + 2B734 。 Unicode 5.2(2009)。
コードポイント + 2B740からU + 2B81D 。 Unicode 6.0(2010)。
上記のスパゲッティでは不十分な場合は、 既知の問題 をご覧ください。楽しんでください=)
漢字(拡張子を除く)の正確な範囲は[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
。
CJK Radicals Supplementは、Kangxiラジカルの代替の、多くの場合、位置的な形式を含むUnicodeブロックです。これらは、ディクショナリインデックスおよびラジカルストロークによって編成された他のCJK表意文字コレクションのヘッダーとして使用されます。
漢文は、読み順を示すために、古典的な中国語のテキストの日本語コピーで使用される注釈文字を含むUnicodeブロックです。
CJK Unified Ideographs Extension-Aは、まれな漢字の表意文字を含むUnicodeブロックです。
CJK Unified Ideographsは、現代の中国語と日本語で使用される最も一般的なCJK表意文字を含むUnicodeブロックです。
CJK Compatibility Ideographsは、Unicodeとそれらのエンコーディング間の往復互換性を維持するために、CJK Unified Ideographs割り当てに加えて、他の確立された文字エンコーディングで複数の場所でエンコードされた漢字を含むように作成されたUnicodeブロックです。
詳細については here を参照してください。拡張機能は他の回答で提供されています。
Unicodeバージョン11.0.0
Unicodeでは、中国語、日本語、および韓国語(CJK)のスクリプトは、CJK文字として総称される共通の背景を共有します。
これらの範囲には、多くの場合、未割り当てまたは予約済みのコードポイントが含まれています(U + 2E9A、U + 2EF4-2EFF)、
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
したがって、範囲は
[0x3007,0x3007]、[0x3400,0x4DBF]、[0x4E00,0x9FEF]、[0x20000,0x2EBFF]
それらは互換性のためにのみ使用される一般的な漢です。
中国の本、記事、文章などに登場するのを見るのはほとんど不可能です。
ここのすべての文字には、対応するグリフと同じ漢字が1つあります。金(U + F90A)や金(U + 91D1)など、Glyphでは同一です。
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
これは広い範囲であり、句読点は使用されない場合があり、中国語では……”“
などの句読点が非常に使用されます。
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Yijing Hexagram SymbolsまたはKanbunなど、多くの中国語関連のシンボルもありますが、とにかくオフトピックです。 CJKで中国語以外の文字を書いて、漢字とは何かをよりよく説明します。また、上記の範囲は、数学やその他の特殊表記法を除き、中国語の文章に登場するほとんどすべての文字をすでにカバーしています。
CJK記号と句読点
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
半角および全角フォーム
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
他の回答が与えたUnicodeコードブロックは、ほとんどの中国語Unicode文字を確実にカバーしますが、これらの他のコードブロックの一部もチェックしてください。
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
要約すると、これらはそれらのように聞こえます:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]