33

トレーニング済みの LDA モデルがあり、モデルをトレーニングしたコーパスから 2 つのドキュメント間の類似性スコアを計算したいと考えています。Gensim のすべてのチュートリアルと関数を調べた後でも、まだ理解できません。誰かが私にヒントを与えることができますか?ありがとう!

4

3 に答える 3

36

使用する類似度メトリックによって異なります。

コサインの類似性は普遍的に有用であり、組み込まれています:

sim = gensim.matutils.cossim(vec_lda1, vec_lda2)

ヘリンジャー距離は、確率分布 (LDA トピックなど) 間の類似性に役立ちます。

import numpy as np
dense1 = gensim.matutils.sparse2full(lda_vec1, lda.num_topics)
dense2 = gensim.matutils.sparse2full(lda_vec2, lda.num_topics)
sim = np.sqrt(0.5 * ((np.sqrt(dense1) - np.sqrt(dense2))**2).sum())
于 2014-03-31T08:16:41.423 に答える