python - Scikit-Learn テキストの CountVectorizer または TfidfVectorizer で句読点を保持する方法は?

翻译自：https://stackoverflow.com/questions/39254134 2016-08-31T15:57:36.497

5132 次

6

scikit-learn のテキストCountVectorizerまたはパラメーターを使用して、テキストドキュメントから !、?、" および ' の句読点を保持する方法はありますか?TfidfVectorizer

1 に答える 1

12

token_patternベクトライザーをインスタンス化するときは、パラメーターをカスタマイズする必要があります。例えば：

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")

于 2016-08-31T19:38:09.410 に答える