java - マレットを使用して単語トピック確率を取得する方法

Question

マレットを使用して並列トピックモデルを作成しました。

そして、各ドキュメントのトップワードを取得したいと思います。

そのために、単語トピックの確率行列を取得しようとしています。

どうすればこれを達成できますか？

score 8 · Accepted Answer

MALLET を使用してトピックを作成する場合、というオプションがあります--word-topic-counts-file。このオプションを指定してファイルを指定すると、MALLET はファイルの各行に (トピック、単語、確率) の値を書き込みます。後でこのファイルを C、Java、または R (もちろん任意の言語) で読み込んで、必要なマトリックスを作成できます。

score 2 · Accepted Answer

Praveenの答えに関して1点だけ指摘します。

を使用する--word-topic-counts-fileと、MALLET は最初の数行が次のようなファイルを作成します。

0 エリザベス 19:1
1 ニーダム 19:2 17:1
2 死亡 19:2
3 母親 17:1 19:1 14:1

ここで、最初の行は、単語elizabethがトピック 19 に 1 回存在したことを意味します。2 行目は、 needhamという単語がトピック 19 に 2 回関連付けられ、トピック 17 に 1 回関連付けられていることを意味します。などなど...
ただし、このファイルは明示的な確率を提供しませんが、それを使用して計算することができます。

java - マレットを使用して単語トピック確率を取得する方法

2 に答える 2

Related

Reference