4

マレットを使用して並列トピック モデルを作成しました。

そして、各ドキュメントのトップワードを取得したいと思います。

そのために、単語トピックの確率行列を取得しようとしています。

どうすればこれを達成できますか?

4

2 に答える 2

8

MALLET を使用してトピックを作成する場合、 というオプションがあります--word-topic-counts-file。このオプションを指定してファイルを指定すると、MALLET はファイルの各行に (トピック、単語、確率) の値を書き込みます。後でこのファイルを C、Java、または R (もちろん任意の言語) で読み込んで、必要なマトリックスを作成できます。

于 2014-06-17T14:03:17.643 に答える
2

Praveenの答えに関して1点だけ指摘します。

を使用する--word-topic-counts-fileと、MALLET は最初の数行が次のようなファイルを作成します。

0 エリザベス 19:1
1 ニーダム 19:2 17:1
2 死亡 19:2
3 母親 17:1 19:1 14:1

ここで、最初の行は、単語elizabethがトピック 19 に 1 回存在したことを意味します。2 行目は、 needhamという単語がトピック 19 に 2 回関連付けられ、トピック 17 に 1 回関連付けられていることを意味します。などなど...
ただし、このファイルは明示的な確率を提供しませんが、それを使用して計算することができます。

于 2016-05-24T08:48:04.147 に答える