PyEnchant を使用しているときに特定の単語を辞書から除外することは可能ですか? たとえば、単語が英語 ('en_EN'
私の場合) かフランス語 ( 'fr_FR'
) かを確認したいとします。"de
ただし、両方の辞書に対して文字列 " をチェックすると、両方とも true が返されます。
1 に答える
0
Pienchant に渡す前に、ストップ ワードを削除してみてください。
from nltk.corpus import stopwords
def remove_stop_words(self, tokenized_docs_no_punctuation):
"""
:param tokenized_docs_no_punctuation:
:return:
"""
# print 'CleanupText.remove_stop_words()'
tokenized_docs_no_stopwords = []
for token in tokenized_docs_no_punctuation:
if not token in stopwords.words('english'):
tokenized_docs_no_stopwords.append(token)
return tokenized_docs_no_stopwords
次に、それらのトークンがそれらを Pienchant に渡します
于 2016-02-16T21:15:17.530 に答える