55

utf8 文字列を処理する小さな C ライブラリを探しています。

具体的には、ステミング アルゴリズムで使用するための Unicode 区切り記号に基づく分割です。

関連する投稿は次のことを示唆しています:

ICU http://www.icu-project.org/ (組み込みデバイスでの目的には大きすぎることがわかりました)

UTF8-CPP: http://utfcpp.sourceforge.net/ (優れていますが、C++ ではありません)

ユニコード文字列を処理するための、プラットフォームに依存しない小さなコードベース ライブラリを見つけた人はいますか (帰化を行う必要はありません)。

4

3 に答える 3

38

私がうまく使っている素敵で軽いライブラリはutf8procです。

于 2008-11-24T06:52:10.377 に答える
13

UTF-8 は特別に設計されているため、多くのバイト指向の文字列関数が引き続き機能するか、わずかな変更しか必要ありません。

たとえば、 C のstrstr関数は、両方の入力が有効なヌル終了 UTF-8 文字列である限り、完全に機能します。strcpy入力文字列が文字境界で始まる限り (たとえば、 の戻り値strstr) は正常に機能します。

したがって、別のライブラリは必要ないかもしれません!

于 2008-11-24T07:30:02.440 に答える