ウィキペディアの漢字のエンコードとは何ですか？

Question

私はウィキペディアで漢字のエンコードを見ていましたが、それらが何を使用しているのかわかりません。たとえば、「的」は「％E7％9A％84」としてエンコードされます（こちらを参照）。これは3バイトですが、説明されているエンコーディングはどれもありませんこのページは、中国語文字を表すために3バイトを使用します。たとえば、UTF-8は2バイトを使用します。

基本的に、これらの3バイトを実際の文字に一致させようとしています。それがどのようなエンコーディングになり得るかについての提案はありますか？

jcomeau_ictx · Accepted Answer

 >>> c='\xe7\x9a\x84'.decode('utf8') >>> c u'\u7684' >>> print c 的

Adam · Answer

ウィキペディアページのヘッダーには以下が含まれます。

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

したがって、ページはUTF-8です。

lovasoa · Answer

あなたが与える例は [〜＃〜] iri [〜＃〜] です。

IRIはUTF8エンコーディングを使用します。 UTF8はUnicodeを実装し、Unicodeでは、各文字にcodepointがあります。これは、すべての中国語文字に対して0x4E00〜0x9FFF（2バイト）です。

しかし、UTF8はcodepointを格納するだけでは文字をエンコードしません（UTF32はそれを行います）。代わりに、すべての中国語表意文字を2または3バイト長にするより複雑な標準を使用します。