1

私はNLTKを初めて使用し、何かをしようとしています。

2 つのテキスト本文に共通する単語を見つけるには、どのような方法が最適でしょうか? 基本的に、text1 という長いテキスト ファイルが 1 つと、text2 というテキスト ファイルがもう 1 つあります。NLTK を使用して、両方のファイルに共通する単語を見つけたいと考えています。

そうする直接的な方法はありますか?最善のアプローチは何ですか?

ありがとう!

4

1 に答える 1

1

言語処理に関して何か特別なことをする必要がない限り、NLTK は必要ないように思えます。

words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()

intersection = set(words1) & set(words2)

>>> set(['of', 'is', 'intersection'])
于 2013-05-03T05:19:03.453 に答える