8000個の文字列(stop_words)のリストと、数百万の個々の単語に及ぶさまざまな長さの100,000個の文字列のリストがあります。この関数を使用して、100,000文字列をトークン化し、英数字以外のトークンとトークンをリストstop_wordsから除外しています。
def tokenizer(text):
return [stemmer.stem(tok.lower()) for tok in nltk.word_tokenize(text)/
if tok.isalpha() and tok.lower() not in stop_words]
600個の文字列を使用してこのコードをテストしましたが、60秒かかります。ストップワードを除外する条件を削除すると、同じ600文字列で1秒かかります
def tokenizer(text):
return [stemmer.stem(tok.lower()) for tok in nltk.word_tokenize(text)/
if tok.isalpha()]
あるリストで見つかったアイテムを別のリストから除外するより効率的な方法があることを願っています。
私はどんな助けや提案にも感謝しています
ありがとう