2

Mahout In Action ブックに示されているように、ロイター データで LDA を使用する例に従ってみます。ただし、何度実行しても、トピックは常に 1 つしか取得できません。

示されているようにコマンドを実行しました:

mahout lda -i reuters-vectors/tf-vectors -o reuters-lda-sparse -k 10 -v 34262 -x 20 -ow

seqdumper を実行して番号を取得しました。コマンドが実行された後、本に示されているように LDAPrintTopics を実行し、次の結果を取得します。

Topic 0
===========
billion [p(billion|topic_0) = 0.04580929884162013
pct [p(pct|topic_0) = 0.043323700764985575
dlrs [p(dlrs|topic_0) = 0.031395871939373196
3 [p(3|topic_0) = 0.027311386657272094
1987 [p(1987|topic_0) = 0.025690077982656934
1 [p(1|topic_0) = 0.022727304049111215
reuter [p(reuter|topic_0) = 0.019572283708227903
mln [p(mln|topic_0) = 0.014569551610736616
april [p(april|topic_0) = 0.014453636611524965
march [p(march|topic_0) = 0.014359948846622552

LDA からより多くのトピックを取得する方法はありますか?

ありがとう。

4

1 に答える 1

1

あなたのコマンドは、10 個のトピックが必要であることを指定する -k 10 と言っています。

これを参照してください https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html

データ セットを変更してみてください。10 の異なるトピックを生成するには小さすぎる可能性があります

于 2012-07-02T10:05:20.750 に答える