1

すでに TF-IDF が計算されているドキュメントの大規模なコレクションがあります。コレクションにさらにドキュメントを追加する準備をしています。データベース全体を再処理せずに新しいドキュメントに TF-IDF スコアを追加する方法があるかどうか疑問に思っています。

4

1 に答える 1

5

基本的に、次の 2 つのオプションがあります。

  1. tf-idf スコアは、必要な場合にのみ計算してください。新しいドキュメントを追加するのは簡単です。必要なことは、すべてのドキュメントの数、トークンが発生するドキュメントの数を更新し、新しいドキュメントのトークン発生ベクトルを保存することだけです。

  2. おそらく100Kのドキュメントを追加した後など、tf-idfベクトルを定期的に再計算してください。その間に、古い値 (すべてのドキュメントの数、トークンが発生するドキュメントの数) を使用してください。

コレクションが非常に大きい場合は、おそらく 2 番目の方法を使用することをお勧めします。新しいドキュメントを作成しても、単語の世界的な分布はあまり変わらないからです。とはいえ、両方の方法をテストして、問題に最も適した方法を選択することをお勧めします。

于 2010-07-22T21:24:27.430 に答える