Light C Unicode Library

Question

Utf8文字列を処理する小さなCライブラリを探しています。

具体的には、ステミングアルゴリズムで使用するUnicode区切り文字に基づく分割。

関連する投稿が示唆しています：

ICU http://www.icu-project.org/ （組み込みデバイスでの使用には大きすぎると感じました）

UTF8-CPP： http://utfcpp.sourceforge.net/ （優れているが、C++ではなくC）

誰かが、Unicode文字列を処理するためのプラットフォームに依存しない小さなコードベースライブラリを見つけましたか（帰化を行う必要はありません）。

Avi · Accepted Answer

xenu · Answer

Artelius · Answer

UTF-8は、多くのバイト指向の文字列関数が引き続き機能するか、わずかな変更のみを必要とするように特別に設計されています。

たとえば、Cのstrstr関数は、両方の入力が有効でnullで終了するUTF-8文字列である限り、完全に機能します。 strcpy入力文字列が文字境界で始まる限り正常に機能します（たとえば、strstrの戻り値）。

したがって、別のライブラリーは必要ないかもしれません！