sklearn のCountVectorizerと同じ方法で、ドキュメントから文字列をフィルター処理したいと考えています。次の正規表現を使用します: (?u)\b\w\w+\b
. この Java コードは同じように動作する必要があります。
Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");
Matcher matcher = regex.matcher("this is the document.!? äöa m²");
while(matcher.find()) {
String match = matcher.group();
System.out.println(match);
}
しかし、これは Python の場合のように、目的の出力を生成しません。
this
is
the
document
äöa
m²
代わりに以下を出力します。
this
is
the
document
Python RegeEx のように、ASCII 以外の文字を含めるにはどうすればよいですか?