Unicode には文字のカテゴリがあります。一部は英数字です。一部は句読点です。
単語がキーワードに属しているかどうかを知りたい場合はどうなりますか
例えば、
A、a、b、c は単語に属する傾向があります。Ƈ、Ǝ、ǟもそうですし、すべての漢字もそうです。
のような文
Hello World, I "like" (to) eat ƇƎǟ and 款开源 ©
キーワードを持っている:
Hello
World
I
like
to
eat
ƇƎǟ
款
开
源
ここで、、()、© は単語の文字ではないため、無視して使用する必要があります。
©も句読点としてカウントされません。'©'.IsPunctuation は vb.net で false を返しますが、それも取り除きたいです。
今度は文をキーワードに分割できるプログラムを作りたいと思っています。そのためには、どの文字が単語の文字で、どの文字がそうでないかを知る必要があります。
そのための vb.net 関数はありますか?