Utf8文字列を処理する小さなCライブラリを探しています。
具体的には、ステミングアルゴリズムで使用するUnicode区切り文字に基づく分割。
関連する投稿が示唆しています:
ICU http://www.icu-project.org/ (組み込みデバイスでの使用には大きすぎると感じました)
UTF8-CPP: http://utfcpp.sourceforge.net/ (優れているが、C++ではなくC)
誰かが、Unicode文字列を処理するためのプラットフォームに依存しない小さなコードベースライブラリを見つけましたか(帰化を行う必要はありません)。
私がうまく使用している素敵で軽いライブラリは tf8proc です。
MicroUTF-8 もあります。
UTF-8は、多くのバイト指向の文字列関数が引き続き機能するか、わずかな変更のみを必要とするように特別に設計されています。
たとえば、Cのstrstr
関数は、両方の入力が有効でnullで終了するUTF-8文字列である限り、完全に機能します。 strcpy
入力文字列が文字境界で始まる限り正常に機能します(たとえば、strstr
の戻り値)。
したがって、別のライブラリーは必要ないかもしれません!