python - NLTK の 2 つのテキストコーパスに共通する単語を見つける

Question

私はNLTKを初めて使用し、何かをしようとしています。

2 つのテキスト本文に共通する単語を見つけるには、どのような方法が最適でしょうか? 基本的に、text1 という長いテキストファイルが 1 つと、text2 というテキストファイルがもう 1 つあります。NLTK を使用して、両方のファイルに共通する単語を見つけたいと考えています。

そうする直接的な方法はありますか？最善のアプローチは何ですか？

ありがとう！

score 1 · Accepted Answer

言語処理に関して何か特別なことをする必要がない限り、NLTK は必要ないように思えます。

words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()

intersection = set(words1) & set(words2)

>>> set(['of', 'is', 'intersection'])

python - NLTK の 2 つのテキスト コーパスに共通する単語を見つける

1 に答える 1

Related

Reference

python - NLTK の 2 つのテキストコーパスに共通する単語を見つける