マレットを使用して並列トピック モデルを作成しました。
そして、各ドキュメントのトップワードを取得したいと思います。
そのために、単語トピックの確率行列を取得しようとしています。
どうすればこれを達成できますか?
MALLET を使用してトピックを作成する場合、 というオプションがあります--word-topic-counts-file
。このオプションを指定してファイルを指定すると、MALLET はファイルの各行に (トピック、単語、確率) の値を書き込みます。後でこのファイルを C、Java、または R (もちろん任意の言語) で読み込んで、必要なマトリックスを作成できます。
Praveenの答えに関して1点だけ指摘します。
を使用する--word-topic-counts-file
と、MALLET は最初の数行が次のようなファイルを作成します。
0 エリザベス 19:1
1 ニーダム 19:2 17:1
2 死亡 19:2
3 母親 17:1 19:1 14:1
ここで、最初の行は、単語elizabethがトピック 19 に 1 回存在したことを意味します。2 行目は、 needhamという単語がトピック 19 に 2 回関連付けられ、トピック 17 に 1 回関連付けられていることを意味します。などなど...
ただし、このファイルは明示的な確率を提供しませんが、それを使用して計算することができます。