0

短いドキュメントのセットがあります(それぞれ 1 つまたは 2 つの段落)。ドキュメントの類似性には 3 つの異なるアプローチを使用しました: - tfidf 行列に対する単純なコサイン類似性 - コーパス全体に LDA を適用し、LDA モデルを使用して各ドキュメントのベクトルを作成し、コサイン類似性を適用しました。-コーパス全体にLSAを適用し、LSAモデルを使用して各ドキュメントのベクトルを作成し、コサイン類似度を適用しました。

実験に基づいて、LDAまたはLSAを使用しないtfidfマトリックスの単純なコサイン類似性でより良い結果が得られています。私が読んだことに基づいて、LDAまたはLSAは結果を改善するはずですが、私の場合はそうではありません! なぜ LDA や LSA の方が結果が悪いのか、何か考えはありますか? LDA と LSA の両方で、1000 ラウンドを超えるトレーニングを行った場合、90% を超える確率で完全に無関係ないくつかのドキュメント間で類似性が検出されます。

その正当な理由はありますか?

ありがとう

4

1 に答える 1