Javascript：Unicode文字列から16進数

Question

Unicode文字列をjavascriptの16進表現に変換しようとしています。

これは私が持っているものです：

function convertFromHex(hex) { var hex = hex.toString();//force conversion var str = ''; for (var i = 0; i < hex.length; i += 2) str += String.fromCharCode(parseInt(hex.substr(i, 2), 16)); return str; } function convertToHex(str) { var hex = ''; for(var i=0;i<str.length;i++) { hex += ''+str.charCodeAt(i).toString(16); } return hex; }

しかし、中国語のようなユニコード文字で失敗した場合;

入力：漢字

出力：ªo "[W

何か案は？これはjavascriptで行うことができますか？

McDowell · Accepted Answer

JavaScriptコードユニットは16ビット幅であることに注意してください。したがって、16進文字列形式はコード単位ごとに4桁になります。

使用法：

var str = "\u6f22\u5b57"; // "\u6f22\u5b57" === "漢字" alert(str.hexEncode().hexDecode());

文字列から16進形式：

String.prototype.hexEncode = function(){ var hex, i; var result = ""; for (i=0; i<this.length; i++) { hex = this.charCodeAt(i).toString(16); result += ("000"+hex).slice(-4); } return result }

再び：

String.prototype.hexDecode = function(){ var j; var hexes = this.match(/.{1,4}/g) || []; var back = ""; for(j = 0; j<hexes.length; j++) { back += String.fromCharCode(parseInt(hexes[j], 16)); } return back; }

Pavel Gatnar · Answer

使用するエンコーディングによって異なります。 utf-8でエンコードされた16進数を文字列に変換する場合は、次を使用します。

function fromHex(hex,str){ try{ str = decodeURIComponent(hex.replace(/(..)/g,'%$1')) } catch(e){ str = hex console.log('invalid hex input: ' + hex) } return str }

他の方向については、これを使用します：

function toHex(str,hex){ try{ hex = unescape(encodeURIComponent(str)) .split('').map(function(v){ return v.charCodeAt(0).toString(16) }).join('') } catch(e){ hex = str console.log('invalid text input: ' + str) } return hex }

redgeoff · Answer

結果を埋めないTweak of McDowellのアルゴリズムを次に示します。

 function toHex(str) { var result = ''; for (var i=0; i<str.length; i++) { result += str.charCodeAt(i).toString(16); } return result; }

Mathias Bynens · Answer

javaScriptで"\u6f22\u5b57"から漢字を取得するにはどうすればよいですか？

これらは JavaScript Unicodeエスケープシーケンス、たとえば\u12AB です。それらを変換するには、文字列内のすべてのコードユニットを反復処理し、その上で.toString(16)を呼び出し、そこから進むことができます。

ただし、可能な限り、出力で 16進エスケープシーケンス、たとえば\xAA を使用する方が効率的です。

また、A、b、-などのASCII記号はおそらくエスケープする必要がないことに注意してください。

jsesc と呼ばれる、これをすべて行う小さなJavaScriptライブラリを作成しました。出力を制御する多くのオプションがあります。

ツールの実際のオンラインデモは次のとおりです。 http://mothereff.in/js-escapes#1%E6%BC%A2%E5%AD%97

あなたの質問にはutf-8というタグが付けられました。あなたの質問の残りを読んで、UTF-8エンコード/デコードはここでは望んでいるようには見えませんでしたが、それが必要になった場合のために： se utf8.js （オンラインデモ）。

Simon Buchan · Answer

エンコードに関する最新のソリューション：

// This is the same for all of the below, and // you probably won't need it except for debugging // in most cases. function bytesToHex(bytes) { return Array.from( bytes, byte => byte.toString(16).padStart(2, "0") ).join(""); } // You almost certainly want UTF-8, which is // now natively supported: function stringToUTF8Bytes(string) { return new TextEncoder().encode(string); } // But you might want UTF-16 for some reason. // .charCodeAt(index) will return the underlying // UTF-16 code-units (not code-points!), so you // just need to format them in whichever endian order you want. function stringToUTF16Bytes(string, littleEndian) { const bytes = new Uint8Array(string.length * 2); // Using DataView is the only way to get a specific // endianness. const view = new DataView(bytes.buffer); for (let i = 0; i != string.length; i++) { view.setUint16(i, string.charCodeAt(i), littleEndian); } return bytes; } // And you might want UTF-32 in even weirder cases. // Fortunately, iterating a string gives the code // points, which are identical to the UTF-32 encoding, // though you still have the endianess issue. function stringToUTF32Bytes(string, littleEndian) { const codepoints = Array.from(string, c => c.codePointAt(0)); const bytes = new Uint8Array(codepoints.length * 4); // Using DataView is the only way to get a specific // endianness. const view = new DataView(bytes.buffer); for (let i = 0; i != codepoints.length; i++) { view.setUint32(i, codepoints[i], littleEndian); } return bytes; }

例：

bytesToHex(stringToUTF8Bytes("hello 漢字 ????")) // "68656c6c6f20e6bca2e5ad9720f09f918d" bytesToHex(stringToUTF16Bytes("hello 漢字 ????", false)) // "00680065006c006c006f00206f225b570020d83ddc4d" bytesToHex(stringToUTF16Bytes("hello 漢字 ????", true)) // "680065006c006c006f002000226f575b20003dd84ddc" bytesToHex(stringToUTF32Bytes("hello 漢字 ????", false)) // "00000068000000650000006c0000006c0000006f0000002000006f2200005b57000000200001f44d" bytesToHex(stringToUTF32Bytes("hello 漢字 ????", true)) // "68000000650000006c0000006c0000006f00000020000000226f0000575b0000200000004df40100"

デコードのために、それは一般的にはるかに簡単です、あなただけが必要です：

function hexToBytes(hex) { const bytes = new Uint8Array(hex.length / 2); for (let i = 0; i !== bytes.length; i++) { bytes[i] = parseInt(hex.substr(i * 2, 2), 16); } return bytes; }

次に、TextDecoderのエンコードパラメーターを使用します。

// UTF-8 is default new TextDecoder().decode(hexToBytes("68656c6c6f20e6bca2e5ad9720f09f918d")); // but you can also use: new TextDecoder("UTF-16LE").decode(hexToBytes("680065006c006c006f002000226f575b20003dd84ddc")) new TextDecoder("UTF-16BE").decode(hexToBytes("00680065006c006c006f00206f225b570020d83ddc4d")); // "hello 漢字 ????"

許可されるエンコーディング名のリストは次のとおりです。 https://www.w3.org/TR/encoding/#names-and-labels

UTF-32がそのリストにないことに気付くかもしれませんが、これは苦痛です。

function bytesToStringUTF32(bytes, littleEndian) { const view = new DataView(bytes.buffer); const codepoints = new Uint32Array(view.byteLength / 4); for (let i = 0; i !== codepoints.length; i++) { codepoints[i] = view.getUint32(i * 4, littleEndian); } return String.fromCodePoint(...codepoints); }

次に：

bytesToStringUTF32(hexToBytes("00000068000000650000006c0000006c0000006f0000002000006f2200005b57000000200001f44d"), false) bytesToStringUTF32(hexToBytes("68000000650000006c0000006c0000006f00000020000000226f0000575b0000200000004df40100"), true) // "hello 漢字 ????"

Zibri · Answer

どうぞ。：D

"漢字".split("").reduce((hex,c)=>hex+=c.charCodeAt(0).toString(16).padStart(4,"0"),"")

"6f225b57"

非ユニコード用

"hi".split("").reduce((hex,c)=>hex+=c.charCodeAt(0).toString(16).padStart(2,"0"),"")

"6869"

ASCII（utf-8）バイナリHEX文字列から文字列

"68656c6c6f20776f726c6421".match(/.{1,2}/g).reduce((acc,char)=>acc+String.fromCharCode(parseInt(char, 16)),"")

文字列からASCII（utf-8）バイナリHEX文字列

"hello world!".split("").reduce((hex,c)=>hex+=c.charCodeAt(0).toString(16).padStart(2,"0"),"")

---ユニコード---

文字列からUNICODE（utf-16）バイナリHEX文字列

"hello world!".split("").reduce((hex,c)=>hex+=c.charCodeAt(0).toString(16).padStart(4,"0"),"")

UNICODE（utf-16）バイナリHEX文字列から文字列

"00680065006c006c006f00200077006f0072006c00640021".match(/.{1,4}/g).reduce((acc,char)=>acc+String.fromCharCode(parseInt(char, 16)),"")