JavaでUTF8バイト配列との間で文字列を変換する方法

Question

Javaでは、私はStringを持っていて、それをバイト配列としてエンコードしたい（UTF8、またはその他のエンコード）。別の方法として、バイト配列を（ある既知のエンコーディングで）持っていて、それをJavaのStringに変換したいです。どうやってこれらの変換をしますか？

mcherm · Accepted Answer

Stringからbyte []に変換します。

String s = "some text here"; byte[] b = s.getBytes(StandardCharsets.UTF_8);

Byte []からStringに変換します。

byte[] b = {(byte) 99, (byte)97, (byte)116}; String s = new String(b, StandardCharsets.US_ASCII);

もちろん、正しいエンコーディング名を使うべきです。私の例では、US-ASCIIとUTF-8の2つの最も一般的なエンコーディングを使用しました。

M. Leonhard · Answer

これは、変換ごとにCharset検索を行わないようにするための解決策です。

import Java.nio.charset.Charset; private final Charset UTF8_CHARSET = Charset.forName("UTF-8"); String decodeUTF8(byte[] bytes) { return new String(bytes, UTF8_CHARSET); } byte[] encodeUTF8(String string) { return string.getBytes(UTF8_CHARSET); }

Jorge Ferreira · Answer

String original = "hello world"; byte[] utf8Bytes = original.getBytes("UTF-8");

McDowell · Answer

String（byte []、String）コンストラクターとgetBytes（String）メソッドを使って直接変換できます。 Javaは Charset クラスを介して利用可能な文字セットを公開します。 JDKのドキュメントには、サポートされているエンコーディングがリストされています。

90％の時間で、そのような変換はストリームで実行されるので、あなたは Reader / Writer クラス任意のバイトストリームに対してStringメソッドを使用して段階的にデコードすることはできません。マルチバイト文字を含むバグにはオープンなままです。

paiego · Answer

私のTomcat 7実装はISO-8859-1として文字列を受け入れています。 HTTPリクエストのコンテンツタイプにかかわらず。 'é'のような文字を正しく解釈しようとすると、次の解決策が私には役立ちました。

byte[] b1 = szP1.getBytes("ISO-8859-1"); System.out.println(b1.toString()); String szUT8 = new String(b1, "UTF-8"); System.out.println(szUT8);

文字列をUS-ASCIIとして解釈しようとしたときに、バイト情報が正しく解釈されませんでした。

b1 = szP1.getBytes("US-ASCII"); System.out.println(b1.toString());

vtor · Answer

代わりに、Apache Commonsの StringUtils を使用することもできます。

 byte[] bytes = {(byte) 1}; String convertedString = StringUtils.newStringUtf8(bytes);

または

 String myString = "example"; byte[] convertedBytes = StringUtils.getBytesUtf8(myString);

標準以外の文字セットがある場合は、それに応じて getBytesUnchecked（）または newString（）を使用できます。

Bouke Woudstra · Answer

一連のバイトを通常の文字列メッセージにデコードするために、私はついにこのコードを使ったUTF-8エンコーディングでうまく動くようになりました：

/* Convert a list of UTF-8 numbers to a normal String * Usefull for decoding a jms message that is delivered as a sequence of bytes instead of plain text */ public String convertUtf8NumbersToString(String[] numbers){ int length = numbers.length; byte[] data = new byte[length]; for(int i = 0; i< length; i++){ data[i] = Byte.parseByte(numbers[i]); } return new String(data, Charset.forName("UTF-8")); }

Pacerier · Answer

7-bit ASCIIまたはISO-8859-1（驚くほど一般的な形式）を使用している場合は、新しい Java.lang.Stringを作成する必要はありません。まったく単純にバイトをcharにキャストする方がはるかにパフォーマンスが優れています。

完全な作業例：

for (byte b : new byte[] { 43, 45, (byte) 215, (byte) 247 }) { char c = (char) b; System.out.print(c); }

ではないを使用して拡張文字のようにÄ、Æ、Å、Ç、Ï、Êおよびは、唯一の送信された値が最初の128のUnicode文字のものであることを確信することができます、そしてこのコードはまたUTF-8と拡張ASCIIに対して働きます（cp-1252のように）。

Nitish Raj · Answer

Charset UTF8_CHARSET = Charset.forName("UTF-8"); String strISO = "{\"name\":\"א\"}"; System.out.println(strISO); byte[] b = strISO.getBytes(); for (byte c: b) { System.out.print("[" + c + "]"); } String str = new String(b, UTF8_CHARSET); System.out.println(str);

Ran Adler · Answer

//query is your json DefaultHttpClient httpClient = new DefaultHttpClient(); HttpPost postRequest = new HttpPost("http://my.site/test/v1/product/search?qy="); StringEntity input = new StringEntity(query, "UTF-8"); input.setContentType("application/json"); postRequest.setEntity(input); HttpResponse response=response = httpClient.execute(postRequest);

Макс Даниленко · Answer

Reader reader = new BufferedReader( new InputStreamReader( new ByteArrayInputStream( string.getBytes(StandardCharsets.UTF_8)), StandardCharsets.UTF_8));

jschober · Answer

私はコメントできませんが、新しいスレッドを始めたくありません。しかしこれはうまくいきません。簡単な往復

byte[] b = new byte[]{ 0, 0, 0, -127 }; // 0x00000081 String s = new String(b,StandardCharsets.UTF_8); // UTF8 = 0x0000, 0x0000, 0x0000, 0xfffd b = s.getBytes(StandardCharsets.UTF_8); // [0, 0, 0, -17, -65, -67] 0x000000efbfbd != 0x00000081

私はそれがそうではないエンコードの前後に同じ配列を必要とするでしょう（これは最初の答えを参照します）。