次のようにストップワードを削除するnltkスタイルで、いくつかの単語を除外したいプログラムに取り組んでいます。
def phrasefilter(phrase):
phrase = phrase.replace('hi', 'hello')
phrase = phrase.replace('hey', 'hello')
phrase = re.sub('[^A-Za-z0-9\s]+', '', phrase.lower())
noise_words_set = ['of', 'the', 'at', 'for', 'in', 'and', 'is', 'from', 'are', 'our', 'it', 'its', 'was', 'when', 'how', 'what', 'like', 'whats', 'now', 'panic', 'very']
return ' '.join(w for w in phrase.split() if w.lower() not in noise_words_set)
web2py DALでこれを行う方法はありますか?
db.define_table( words,
Field(words1, REQUIRES IS_NOT_NULL(), REQUIRES....
たとえば、REQUIRES IS_NOT_IN_NOISE_WORDS_SET() 制約に入れたいと思います。これは可能ですか?上記のスニペットを使用する代わりに、選択したストップワードを自動的に削除するユーザー入力(データベースに保存された文字列を使用)に取り組んでいます。