python - Pythonのブール検索モデル

翻译自：https://stackoverflow.com/questions/19179706 2013-10-04T11:08:06.177

3138 次

2

Pythonでブールモデルを使用してクエリ応答システムを作成しようとしています。

nltk を使用しようとしましたが、ブールモデルの機能がないようです

私は 3 つの文書を持っていますが、どの文書が数値でより類似しているかを確認したいと考えています。

たとえば、doc1 2.987、doc2 0.876、および doc3 2.156 の場合、doc1 と doc2 は類似しています。

私がしたこと：

トークン化された文書
重複した単語を削除しました
ストップワードを削除しました

私が今持っているのは、各ドキュメントの固有の単語のリストです (基本的に名詞、動詞、副詞、形容詞)

次のステップは何ですか？

1 に答える 1