6

scikit-learn のテキストCountVectorizerまたはパラメーターを使用して、テキスト ドキュメントから !、?、" および ' の句読点を保持する方法はありますか?TfidfVectorizer

4

1 に答える 1

12

token_patternベクトライザーをインスタンス化するときは、パラメーターをカスタマイズする必要があります。例えば:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
于 2016-08-31T19:38:09.410 に答える