Pythonでブールモデルを使用してクエリ応答システムを作成しようとしています。
nltk を使用しようとしましたが、ブール モデルの機能がないようです
私は 3 つの文書を持っていますが、どの文書が数値でより類似しているかを確認したいと考えています。
たとえば、doc1 2.987、doc2 0.876、および doc3 2.156 の場合、doc1 と doc2 は類似しています。
私がしたこと:
- トークン化された文書
- 重複した単語を削除しました
- ストップワードを削除しました
私が今持っているのは、各ドキュメントの固有の単語のリストです (基本的に名詞、動詞、副詞、形容詞)
次のステップは何ですか?