私はNLTKを初めて使用し、何かをしようとしています。
2 つのテキスト本文に共通する単語を見つけるには、どのような方法が最適でしょうか? 基本的に、text1 という長いテキスト ファイルが 1 つと、text2 というテキスト ファイルがもう 1 つあります。NLTK を使用して、両方のファイルに共通する単語を見つけたいと考えています。
そうする直接的な方法はありますか?最善のアプローチは何ですか?
ありがとう!
言語処理に関して何か特別なことをする必要がない限り、NLTK は必要ないように思えます。
words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()
intersection = set(words1) & set(words2)
>>> set(['of', 'is', 'intersection'])