Python と NLTK を使用して、検索クエリに最も近い記事を取得する簡単な方法を知っている人はいますか? たとえば、ウィキペディアから 10 個の記事を取得し、それぞれの頻度分布を見つけて (推奨事項がある場合は、別の分類方法と共に)、検索クエリに基づいて、最も可能性の高い記事を返します。を指している可能性があります。
何か案は?度数分布以外のより良い方法が欲しいのですが、そこから始めようと思いました。
Rocchio のアルゴリズム、別名TFxIDF、別名 tf-idf、別名 tfidf、さらには tf/idf (sic) は、ほぼ標準的なソリューションです。単純な頻度の代わりに、文書セット全体の用語頻度を計算し、文書の用語頻度を合計頻度数で除算して用語の重みを表します。そうすれば、一般的な単語の IDF によってその重みがほぼゼロになるため、ストップ ワードは必要ありません。