StackOverflow には、「文字」が正規表現で[a-zA-Z]
. ただし、Unicode では、ほとんどの人が文字と見なす文字がさらに多くあります (すべてのギリシャ文字、キリル文字など)。Unicodeでは、それぞれが「文字」を持つ可能性のある多くのブロックが定義されています。
Java 定義では、アルファベット文字などのPosix クラス を定義していますが、これは US-ASCII でのみ機能するように指定されています。事前定義された文字クラスでは[a-zA-Z_0-9]
、単語が で構成されるように定義されていますが、多くの文字も除外されています。
では、どうすれば Unicode 文字列と適切に一致させることができるでしょうか? これを正しく行う他のライブラリはありますか?