問題タブ [countvectorizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
426 参照

java - Java 正規表現は ascii 範囲外では一致せず、python 正規表現とは異なる動作をします

sklearn のCountVectorizerと同じ方法で、ドキュメントから文字列をフィルター処理したいと考えています。次の正規表現を使用します: (?u)\b\w\w+\b. この Java コードは同じように動作する必要があります。

しかし、これは Python の場合のように、目的の出力を生成しません。

代わりに以下を出力します。

Python RegeEx のように、ASCII 以外の文字を含めるにはどうすればよいですか?