プラットフォームに依存しない方法で、std :: stringのUTF8文字列をstd :: wstringに、またはその逆に変換することは可能ですか? Windowsアプリケーションでは、MultiByteToWideCharとWideCharToMultiByteを使用します。ただし、コードは複数のOS用にコンパイルされており、標準C++ライブラリに制限されています。
5年前にこの質問をしました。このスレッドは当時とても役に立ちました。結論に至り、プロジェクトに進みました。私が最近似たようなものを必要としていたのは面白いです。過去のプロジェクトとはまったく関係ありません。可能な解決策を探していたとき、私は自分の質問につまずいた:)
今選択したソリューションは、C++ 11に基づいています。 Constantinが his answer で言及しているブーストライブラリは、現在標準の一部です。 std :: wstringを新しい文字列型std :: u16stringに置き換えると、変換は次のようになります。
UTF-8からUTF-16
std::string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::u16string dest = convert.from_bytes(source);
UTF-16からUTF-8
std::u16string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::string dest = convert.to_bytes(source);
他の回答からわかるように、問題には複数のアプローチがあります。だから、私は受け入れられた答えを選ぶことを控えます。
utf8_codecvt_facet
from ブーストシリアル化ライブラリ 。
それらの使用例:
typedef wchar_t ucs4_t;
std::locale old_locale;
std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);
// Set a New global locale
std::locale::global(utf8_locale);
// Send the UCS-4 data out, converting to UTF-8
{
std::wofstream ofs("data.ucd");
ofs.imbue(utf8_locale);
std::copy(ucs4_data.begin(),ucs4_data.end(),
std::ostream_iterator<ucs4_t,ucs4_t>(ofs));
}
// Read the UTF-8 data back in, converting to UCS-4 on the way in
std::vector<ucs4_t> from_file;
{
std::wifstream ifs("data.ucd");
ifs.imbue(utf8_locale);
ucs4_t item = 0;
while (ifs >> item) from_file.Push_back(item);
}
探す utf8_codecvt_facet.hpp
およびutf8_codecvt_facet.cpp
ブーストソース内のファイル。
問題の定義では、8ビット文字エンコーディングはUTF-8であると明示的に述べられています。これは些細な問題です。必要なのは、あるUTF仕様から別のUTF仕様に変換するための少しの調整です。
TF-8 、 TF-16 、および TF-32 のWikipediaページのエンコーディングをご覧ください。
原則は単純です。入力を調べて、1つのUTF仕様に従って32ビットのUnicodeコードポイントをアセンブルし、他の仕様に従ってコードポイントを発行します。個々のコードポイントは、他の文字エンコーディングで必要になるような変換を必要としません。これが単純な問題の原因です。
_wchar_t
_からUTF-8への変換(およびその逆)の簡単な実装を次に示します。入力がすでに適切にエンコードされていることを前提としています-ここでは、古い「ガベージイン、ガベージアウト」が適用されます。エンコードの検証は、別の手順として行うのが最適だと思います。
_std::string wchar_to_UTF8(const wchar_t * in)
{
std::string out;
unsigned int codepoint = 0;
for (in; *in != 0; ++in)
{
if (*in >= 0xd800 && *in <= 0xdbff)
codepoint = ((*in - 0xd800) << 10) + 0x10000;
else
{
if (*in >= 0xdc00 && *in <= 0xdfff)
codepoint |= *in - 0xdc00;
else
codepoint = *in;
if (codepoint <= 0x7f)
out.append(1, static_cast<char>(codepoint));
else if (codepoint <= 0x7ff)
{
out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else if (codepoint <= 0xffff)
{
out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else
{
out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
codepoint = 0;
}
}
return out;
}
_
上記のコードは、単に_d800
_からdfff
の範囲が無効なコードポイントであるため、UTF-16およびUTF-32入力の両方で機能します。 UTF-16をデコードしていることを示しています。 _wchar_t
_が32ビットであることを知っている場合は、いくつかのコードを削除して関数を最適化できます。
_std::wstring UTF8_to_wchar(const char * in)
{
std::wstring out;
unsigned int codepoint;
while (*in != 0)
{
unsigned char ch = static_cast<unsigned char>(*in);
if (ch <= 0x7f)
codepoint = ch;
else if (ch <= 0xbf)
codepoint = (codepoint << 6) | (ch & 0x3f);
else if (ch <= 0xdf)
codepoint = ch & 0x1f;
else if (ch <= 0xef)
codepoint = ch & 0x0f;
else
codepoint = ch & 0x07;
++in;
if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
{
if (sizeof(wchar_t) > 2)
out.append(1, static_cast<wchar_t>(codepoint));
else if (codepoint > 0xffff)
{
out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
}
else if (codepoint < 0xd800 || codepoint >= 0xe000)
out.append(1, static_cast<wchar_t>(codepoint));
}
}
return out;
}
_
再び_wchar_t
_が32ビットであることを知っている場合、この関数からいくつかのコードを削除できますが、この場合は何の違いもありません。式sizeof(wchar_t) > 2
はコンパイル時に既知であるため、適切なコンパイラーはデッドコードを認識して削除します。
これを行うにはいくつかの方法がありますが、結果はstring
およびwstring
変数の文字エンコーディングによって異なります。
string
がASCIIであることがわかっている場合は、単にwstring
の反復子コンストラクターを使用できます。
string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());
ただし、string
に他のエンコーディングがある場合、非常に悪い結果が得られます。エンコードがUnicodeの場合、 ICUプロジェクト を見ることができます。これは、あらゆる種類のUnicodeエンコードとの間で変換するクロスプラットフォームのライブラリセットを提供します。
string
のコードページに文字が含まれている場合、$ DEITYがあなたの魂に慈悲を抱くことがあります。
bames5 へのクレジット
codecvt
ロケールファセット を使用できます。特定の専門分野が定義されています、codecvt<wchar_t, char, mbstate_t>
これはあなたにとって有用かもしれませんが、その動作はシステム固有であり、UTF-8への変換を保証するものではありません。
TFConverter -このライブラリをチェックアウトします。それはそのような変換を行いますが、ConvertUTFクラスも必要です-私はそれを見つけました here
Utf-8からutf-16/utf-32への変換用に独自のライブラリを作成しましたが、その目的のために既存のプロジェクトの分岐を作成することにしました。
https://github.com/tapika/cutf
( https://github.com/noct/cutf から作成)
APIはC++と同様にプレーンCでも動作します。
関数プロトタイプは次のようになります:(完全なリストについては https://github.com/tapika/cutf/blob/master/cutf.h を参照)
//
// Converts utf-8 string to wide version.
//
// returns target string length.
//
size_t utf8towchar(const char* s, size_t inSize, wchar_t* out, size_t bufSize);
//
// Converts wide string to utf-8 string.
//
// returns filled buffer length (not string length)
//
size_t wchartoutf8(const wchar_t* s, size_t inSize, char* out, size_t outsize);
#ifdef __cplusplus
std::wstring utf8towide(const char* s);
std::wstring utf8towide(const std::string& s);
std::string widetoutf8(const wchar_t* ws);
std::string widetoutf8(const std::wstring& ws);
#endif
使用例/ utf変換テスト用の簡単なテストアプリケーション:
#include "cutf.h"
#define ok(statement) \
if( !(statement) ) \
{ \
printf("Failed statement: %s\n", #statement); \
r = 1; \
}
int simpleStringTest()
{
const wchar_t* chineseText = L"主体";
auto s = widetoutf8(chineseText);
size_t r = 0;
printf("simple string test: ");
ok( s.length() == 6 );
uint8_t utf8_array[] = { 0xE4, 0xB8, 0xBB, 0xE4, 0xBD, 0x93 };
for(int i = 0; i < 6; i++)
ok(((uint8_t)s[i]) == utf8_array[i]);
auto ws = utf8towide(s);
ok(ws.length() == 2);
ok(ws == chineseText);
if( r == 0 )
printf("ok.\n");
return (int)r;
}
このライブラリがニーズを満たさない場合は、次のリンクを開いてください。
ページの最後まで下にスクロールして、好きな重いライブラリをピックアップします。