トレーニング済みの LDA モデルがあり、モデルをトレーニングしたコーパスから 2 つのドキュメント間の類似性スコアを計算したいと考えています。Gensim のすべてのチュートリアルと関数を調べた後でも、まだ理解できません。誰かが私にヒントを与えることができますか?ありがとう!
26394 次
3 に答える
36
使用する類似度メトリックによって異なります。
sim = gensim.matutils.cossim(vec_lda1, vec_lda2)
ヘリンジャー距離は、確率分布 (LDA トピックなど) 間の類似性に役立ちます。
import numpy as np
dense1 = gensim.matutils.sparse2full(lda_vec1, lda.num_topics)
dense2 = gensim.matutils.sparse2full(lda_vec2, lda.num_topics)
sim = np.sqrt(0.5 * ((np.sqrt(dense1) - np.sqrt(dense2))**2).sum())
于 2014-03-31T08:16:41.423 に答える