8

TF-IDF (用語頻度 - 逆文書頻度)は、情報検索の定番です。ただし、これは適切なモデルではなく、新しい用語がコーパスに導入されると壊れてしまうようです。クエリや新しいドキュメントに新しい用語が含まれている場合、特にそれらが頻繁に使用される場合、人々はそれをどのように処理しますか? 従来のコサイン マッチングでは、それらは総一致に影響を与えません。

4

2 に答える 2

3

えー、いや、壊れません。

A「イタチヤギ」とB「チーズゴーファー」の2つのドキュメントがあるとします。これらを実際にベクトルとして表現すると、次のようになります。

A [1,1,0,0]
B [0,0,1,1]

これらのベクトルをインデックス ファイルに割り当てた場合、新しい用語を追加するときに問題が発生します。しかし、それのトリックは、そのベクトルは決して存在しないということです. 鍵は逆索引です。

コサインマッチに影響を与えない新しい用語に関しては、あなたの言いたいことに応じて、それは真実かもしれません。(A,B) のコーパスを "marmoset kungfu" というクエリで検索すると、マーモセットもカンフーもコーパスに存在しません。したがって、私のクエリを表すベクトルは、コレクション内のすべてのドキュメントに直交し、悪いコサイン類似度スコアを取得します。しかし、どの用語も一致しないことを考えると、それはかなり合理的です。

于 2008-10-31T22:11:20.833 に答える
1

「ブレークダウン」について話すとき、新しい用語は元の語彙によって定義されたベクトル空間での表現を持たないため、類似度に影響を与えないことを意味していると思います。

この平滑化の問題を処理する 1 つのアプローチは、ボキャブラリをより小さなボキャブラリに固定し、特定のしきい値よりも少ないすべての単語を特別な_UNKNOWN_単語に属するものとして扱うことです。

しかし、あなたの「崩壊」の定義はあまり明確ではないと思います。そこに何を意味するのかを明確にできますか?それを解決できれば、これらの問題を回避する方法について話し合うことができるかもしれません。

于 2008-12-31T22:15:25.173 に答える