コサイン類似度を実行するために sklearn を使用しています。
大文字で始まるすべての単語をストップ ワードと見なす方法はありますか?
コサイン類似度を実行するために sklearn を使用しています。
大文字で始まるすべての単語をストップ ワードと見なす方法はありますか?
次の正規表現は文字列を入力として受け取り、大文字で始まるすべての英数字のシーケンスを削除/空の文字列に置き換えます。その他のオプションについては、 http://docs.python.org/2.7/library/re.htmlを参照してください。
s1 = "The cat Went to The store To get Some food doNotMatch"
r1 = re.compile('\\b[A-Z]\w+')
r1.sub('',s1)
' cat to store get food doNotMatch'
Sklearn には、sklearn.feature_extraction.text など、テキスト機能を生成するための多くの優れた機能もあります。