JavascriptでUTF-8をデコードする

Question

UTF-8でエンコードされた文字列を渡すXHTML WebページにJavascriptがあります。 UTF-8バージョンを引き続き渡し、デコードする必要があります。 UTF-8文字列を表示用にデコードするにはどうすればよいですか？

<script type="text/javascript"> // <![CDATA[ function updateUser(usernameSent){ var usernameReceived = usernameSent; // Current value: GrÃƒÂ¶ÃƒÂŸe var usernameDecoded = usernameReceived; // Decode to: Größe var html2id = ''; html2id += 'Encoded: ' + usernameReceived + '<br />Decoded: ' + usernameDecoded; document.getElementById('userId').innerHTML = html2id; } // ]]> </script>

CpnCrunch · Answer

元の質問に答えるには、javascriptでutf-8をデコードする方法を次に示します。

http://ecmanaut.blogspot.ca/2006/07/encoding-decoding-utf8-in-javascript.html

具体的には、

function encode_utf8(s) { return unescape(encodeURIComponent(s)); } function decode_utf8(s) { return decodeURIComponent(escape(s)); }

私たちはこれを本番コードで6年間使用してきましたが、問題なく機能していました。

ただし、escape（）およびunescape（）は推奨されないことに注意してください。

Albert · Answer

これは動作するはずです：

// http://www.onicos.com/staff/iz/amuse/javascript/expert/utf.txt /* utf.js - UTF-8 <=> UTF-16 convertion * * Copyright (C) 1999 Masanao Izumo <iz@onicos.co.jp> * Version: 1.0 * LastModified: Dec 25 1999 * This library is free. You can redistribute it and/or modify it. */ function Utf8ArrayToStr(array) { var out, i, len, c; var char2, char3; out = ""; len = array.length; i = 0; while(i < len) { c = array[i++]; switch(c >> 4) { case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7: // 0xxxxxxx out += String.fromCharCode(c); break; case 12: case 13: // 110x xxxx 10xx xxxx char2 = array[i++]; out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F)); break; case 14: // 1110 xxxx 10xx xxxx 10xx xxxx char2 = array[i++]; char3 = array[i++]; out += String.fromCharCode(((c & 0x0F) << 12) | ((char2 & 0x3F) << 6) | ((char3 & 0x3F) << 0)); break; } } return out; }

JSFiddle demo をご覧ください。

関連する質問も参照してください： here および here

lauthu · Answer

絵文字の@Albertの回答追加条件を更新します。

function Utf8ArrayToStr(array) { var out, i, len, c; var char2, char3, char4; out = ""; len = array.length; i = 0; while(i < len) { c = array[i++]; switch(c >> 4) { case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7: // 0xxxxxxx out += String.fromCharCode(c); break; case 12: case 13: // 110x xxxx 10xx xxxx char2 = array[i++]; out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F)); break; case 14: // 1110 xxxx 10xx xxxx 10xx xxxx char2 = array[i++]; char3 = array[i++]; out += String.fromCharCode(((c & 0x0F) << 12) | ((char2 & 0x3F) << 6) | ((char3 & 0x3F) << 0)); break; case 15: // 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx char2 = array[i++]; char3 = array[i++]; char4 = array[i++]; out += String.fromCodePoint(((c & 0x07) << 18) | ((char2 & 0x3F) << 12) | ((char3 & 0x3F) << 6) | (char4 & 0x3F)); break; } return out; }

fakedrake · Answer

@albertのソリューションは私が思うに最も近いものでしたが、最大3バイトのutf-8文字しか解析できません

function utf8ArrayToStr(array) { var out, i, len, c; var char2, char3; out = ""; len = array.length; i = 0; // XXX: Invalid bytes are ignored while(i < len) { c = array[i++]; if (c >> 7 == 0) { // 0xxx xxxx out += String.fromCharCode(c); continue; } // Invalid starting byte if (c >> 6 == 0x02) { continue; } // #### MULTIBYTE #### // How many bytes left for thus character? var extraLength = null; if (c >> 5 == 0x06) { extraLength = 1; } else if (c >> 4 == 0x0e) { extraLength = 2; } else if (c >> 3 == 0x1e) { extraLength = 3; } else if (c >> 2 == 0x3e) { extraLength = 4; } else if (c >> 1 == 0x7e) { extraLength = 5; } else { continue; } // Do we have enough bytes in our data? if (i+extraLength > len) { var leftovers = array.slice(i-1); // If there is an invalid byte in the leftovers we might want to // continue from there. for (; i < len; i++) if (array[i] >> 6 != 0x02) break; if (i != len) continue; // All leftover bytes are valid. return {result: out, leftovers: leftovers}; } // Remove the UTF-8 prefix from the char (res) var mask = (1 << (8 - extraLength - 1)) - 1, res = c & mask, nextChar, count; for (count = 0; count < extraLength; count++) { nextChar = array[i++]; // Is the char valid multibyte part? if (nextChar >> 6 != 0x02) {break;}; res = (res << 6) | (nextChar & 0x3f); } if (count != extraLength) { i--; continue; } if (res <= 0xffff) { out += String.fromCharCode(res); continue; } res -= 0x10000; var high = ((res >> 10) & 0x3ff) + 0xd800, low = (res & 0x3ff) + 0xdc00; out += String.fromCharCode(high, low); } return {result: out, leftovers: []}; }

これは、文字列をチャンクで解析している場合に{result: "parsed string", leftovers: [list of invalid bytes at the end]}を返します。

編集：@unhammerが発見した問題を修正。

Matthew Voss · Answer

以下は、すべてのUnicodeコードポイントを処理するソリューションで、上位（4バイト）の値が含まれ、すべての最新ブラウザー（IEおよびその他の5.5以上）でサポートされています。 decodeURIComponent（）を使用しますが、非推奨のエスケープ/エスケープ解除関数は使用しません。

function utf8_to_str(a) { for(var i=0, s=''; i<a.length; i++) { var h = a[i].toString(16) if(h.length < 2) h = '0' + h s += '%' + h } return decodeURIComponent(s) }

GitHub でテスト済みで利用可能

文字列からUTF-8を作成するには：

function utf8_from_str(s) { for(var i=0, enc = encodeURIComponent(s), a = []; i < enc.length;) { if(enc[i] === '%') { a.Push(parseInt(enc.substr(i+1, 2), 16)) i += 3 } else { a.Push(enc.charCodeAt(i++)) } } return a }

GitHub でテスト済みで利用可能

user9642681 · Answer

//文字列からUtf8 ByteBuffer

function strToUTF8(str){ return Uint8Array.from(encodeURIComponent(str).replace(/%(..)/g,(m,v)=>{return String.fromCodePoint(parseInt(v,16))}), c=>c.codePointAt(0)) }

// Utf8 ByteArrayを文字列に

function UTF8toStr(ba){ return decodeURIComponent(ba.reduce((p,c)=>{return p+'%'+c.toString(16),''})) }

Jonathan · Answer

おそらく textDecoder を使用すれば十分でしょう。

ただし、すべてのブラウザでサポートされているわけではありません。ただし、横断歩道や、使用されているブラウザを知っているその他のユースケースを使用すれば十分かもしれません。

var decoder = new TextDecoder('utf-8'), decodedMessage; decodedMessage = decoder.decode(message.data);

Olle Tiinus · Answer

これは、UTF-8エンコード/デコードよりも具体的なGoogle検索の後に見つけたものです。エンコード間で変換するための変換ライブラリを探している人のために、ここに行きます。

https://github.com/inexorabletash/text-encoding

var uint8array = new TextEncoder().encode(str); var str = new TextDecoder(encoding).decode(uint8array);

リポジトリのreadmeから貼り付けます

エンコーディング仕様のすべてのエンコーディングがサポートされています。

utf-8 ibm866 iso-8859-2 iso-8859-3 iso-8859-4 iso-8859-5 iso-8859-6 iso-8859-7 iso-8859-8 iso-8859-8-i iso-8859- 10 iso-8859-13 iso-8859-14 iso-8859-15 iso-8859-16 koi8-r koi8-u Macintosh windows-874 windows-1250 windows-1251 windows-1252 windows-1253 windows-1254 windows-1255 windows -1256 windows-1257 windows-1258 x-mac-cyrillic gb18030 hz-gb-2312 big5 euc-jp iso-2022-jp shift_jis euc-kr交換utf-16be utf-16le x-ユーザー定義

（一部のエンコーディングは、ascii、iso-8859-1など、他の名前でサポートされている場合があります。各エンコーディングの追加ラベルについては、エンコーディングをご覧ください。）

MCCCS · Answer

1.6KB library を使用すると、次のことができます

ToString(FromUTF8(Array.from(usernameReceived)))

Kasparow · Answer

最も簡単な方法は、組み込みのjs関数decodeURI（）/ encodeURI（）を使用することです。

function (usernameSent) { var usernameEncoded = usernameSent; // Current value: utf8 var usernameDecoded = decodeURI(usernameReceived); // Decoded // do stuff }