私はGensimを使って大規模なトピックモデリングを行っています。見えない(インデックス付けされていない)ドキュメントの予測トピックを決定する方法を理解するのに苦労しています。例:LSA(およびLDA)空間でベクトルに変換した2500万のドキュメントがあります。新しいドキュメントのトピックを理解したいので、xと呼びましょう。
Gensimのドキュメントによると、私は次のものを使用できます。
topics = lsi[doc(x)]
ここで、doc(x)は、xをベクトルに変換する関数です。
ただし、問題は、上記の変数topicsがベクトルを返すことです。このベクトルは、xを追加のドキュメントと比較する場合に役立ちます。これにより、ドキュメント間の余弦の類似性を見つけることができますが、x自体に関連付けられている特定の単語を実際に返すことはできません。
私は何かが足りないのですか、それともGensimにはこの機能がありませんか?
ありがとうございました、
編集
Larsmansが答えを持っています。
以下を使用してトピックを表示することができました。
for t in topics:
print lsi.show_topics(t[0])