問題タブ [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java 正規表現は ascii 範囲外では一致せず、python 正規表現とは異なる動作をします
sklearn のCountVectorizerと同じ方法で、ドキュメントから文字列をフィルター処理したいと考えています。次の正規表現を使用します: (?u)\b\w\w+\b
. この Java コードは同じように動作する必要があります。
しかし、これは Python の場合のように、目的の出力を生成しません。
代わりに以下を出力します。
Python RegeEx のように、ASCII 以外の文字を含めるにはどうすればよいですか?