6

私はGensimを使って大規模なトピックモデリングを行っています。見えない(インデックス付けされていない)ドキュメントの予測トピックを決定する方法を理解するのに苦労しています。例:LSA(およびLDA)空間でベクトルに変換した2500万のドキュメントがあります。新しいドキュメントのトピックを理解したいので、xと呼びましょう。

Gensimのドキュメントによると、私は次のものを使用できます。

topics = lsi[doc(x)]

ここで、doc(x)は、xをベクトルに変換する関数です。

ただし、問題は、上記の変数topicsがベクトルを返すことです。このベクトルは、xを追加のドキュメントと比較する場合に役立ちます。これにより、ドキュメント間の余弦の類似性を見つけることができますが、x自体に関連付けられている特定の単語を実際に返すことはできません。

私は何かが足りないのですか、それともGensimにはこの機能がありませんか?

ありがとうございました、

編集

Larsmansが答えを持っています。

以下を使用してトピックを表示することができました。

for t in topics:
    print lsi.show_topics(t[0])
4

2 に答える 2

5

LSI モデルでによって返されるベクトルは、実際にはペア[]のリストです。(topic, weight)メソッドを使用してトピックを検査できますLsiModel.show_topic

于 2012-07-13T15:36:32.647 に答える
0

以下を使用してトピックを表示できました。

トピックの t の場合: print lsi.show_topics(t[0])

ソリューション コードの小さな、しかし重要なバグを指摘したかっただけです。show_topic**s**() 関数ではなく、show_topic() 関数を使用する必要があります。

PSこれは回答ではなくコメントとして投稿する必要があることはわかっていますが、現在の評判スコアではまだコメントを許可していません!

于 2014-05-17T16:43:02.970 に答える