web-dev-qa-db-ja.com

Light C Unicode Library

Utf8文字列を処理する小さなCライブラリを探しています。

具体的には、ステミングアルゴリズムで使用するUnicode区切り文字に基づく分割。

関連する投稿が示唆しています:

ICU http://www.icu-project.org/ (組み込みデバイスでの使用には大きすぎると感じました)

UTF8-CPP: http://utfcpp.sourceforge.net/ (優れているが、C++ではなくC)

誰かが、Unicode文字列を処理するためのプラットフォームに依存しない小さなコードベースライブラリを見つけましたか(帰化を行う必要はありません)。

53
Akusete

私がうまく使用している素敵で軽いライブラリは tf8proc です。

34
Avi

MicroUTF-8 もあります。

15
xenu

UTF-8は、多くのバイト指向の文字列関数が引き続き機能するか、わずかな変更のみを必要とするように特別に設計されています。

たとえば、Cのstrstr関数は、両方の入力が有効でnullで終了するUTF-8文字列である限り、完全に機能します。 strcpy入力文字列が文字境界で始まる限り正常に機能します(たとえば、strstrの戻り値)。

したがって、別のライブラリーは必要ないかもしれません!

9
Artelius