0

コサイン類似度を実行するために sklearn を使用しています。

大文字で始まるすべての単語をストップ ワードと見なす方法はありますか?

4

1 に答える 1

0

次の正規表現は文字列を入力として受け取り、大文字で始まるすべての英数字のシーケンスを削除/空の文字列に置き換えます。その他のオプションについては、 http://docs.python.org/2.7/library/re.htmlを参照してください。

s1 = "The cat Went to The store To get Some food doNotMatch"
r1 = re.compile('\\b[A-Z]\w+')
r1.sub('',s1)
' cat  to  store  get  food doNotMatch'

Sklearn には、sklearn.feature_extraction.text など、テキスト機能を生成するための多くの優れた機能もあります。

于 2013-10-29T11:41:05.453 に答える