テキストの文字列からストップワードを削除しようとしています:
from nltk.corpus import stopwords
text = 'hello bye the the hi'
text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))])
私はそのような弦を 6 ミル処理しているので、速度が重要です。私のコードのプロファイリング、最も遅い部分は上記の行です。これを行うより良い方法はありますか? 正規表現のようなものを使用することを考えてre.sub
いますが、一連の単語のパターンを記述する方法がわかりません。誰かが私に手を差し伸べることができますか?他のおそらくより速い方法を聞いてうれしいです。
注:誰かが提案したラッピングを試みstopwords.words('english')
ましset()
たが、違いはありませんでした。
ありがとうございました。