3

sklearn のCountVectorizerと同じ方法で、ドキュメントから文字列をフィルター処理したいと考えています。次の正規表現を使用します: (?u)\b\w\w+\b. この Java コードは同じように動作する必要があります。

Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");
Matcher matcher = regex.matcher("this is the document.!? äöa m²");

while(matcher.find()) {
    String match = matcher.group();
    System.out.println(match);
}

しかし、これは Python の場合のように、目的の出力を生成しません。

this
is
the
document
äöa
m²

代わりに以下を出力します。

this
is
the
document

Python RegeEx のように、ASCII 以外の文字を含めるにはどうすればよいですか?

4

2 に答える 2