python - TF-IFcosine 類似度の実行中に stop_words を追加

Question

コサイン類似度を実行するために sklearn を使用しています。

大文字で始まるすべての単語をストップワードと見なす方法はありますか?

score 0 · Accepted Answer

次の正規表現は文字列を入力として受け取り、大文字で始まるすべての英数字のシーケンスを削除/空の文字列に置き換えます。その他のオプションについては、 http://docs.python.org/2.7/library/re.htmlを参照してください。

s1 = "The cat Went to The store To get Some food doNotMatch"
r1 = re.compile('\\b[A-Z]\w+')
r1.sub('',s1)
' cat  to  store  get  food doNotMatch'

Sklearn には、sklearn.feature_extraction.text など、テキスト機能を生成するための多くの優れた機能もあります。

1 に答える 1