私はウィキペディアで漢字のエンコードを見ていましたが、それらが何を使用しているのかわかりません。たとえば、「的」は「%E7%9A%84」としてエンコードされます( こちらを参照 )。これは3バイトですが、説明されているエンコーディングはどれもありません このページ は、中国語文字を表すために3バイトを使用します。たとえば、UTF-8は2バイトを使用します。
基本的に、これらの3バイトを実際の文字に一致させようとしています。それがどのようなエンコーディングになり得るかについての提案はありますか?
>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的
ウィキペディアページのヘッダーには以下が含まれます。
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
したがって、ページはUTF-8です。
あなたが与える例は [〜#〜] iri [〜#〜] です。
IRIはUTF8エンコーディングを使用します。 UTF8はUnicodeを実装し、Unicodeでは、各文字にcodepointがあります。これは、すべての中国語文字に対して0x4E00〜0x9FFF(2バイト)です。
しかし、UTF8はcodepointを格納するだけでは文字をエンコードしません(UTF32はそれを行います)。代わりに、すべての中国語表意文字を2または3バイト長にする より複雑な標準 を使用します。