1

CSV形式で以下のようなデータセットを持っています。

FileName,Topic,Tag,Frequency
File-1,Topic -1,Tag-1,10
File-2,Topic -2,Tag-2,10
File-3,Topic -3,Tag-2,10
File-4,Topic -4,Tag-4,10
File-5,Topic -1,Tag-5,10
File-6,Topic -3,Tag-1,10
File-7,Topic -1,Tag-1,10 

mahout LDA(Latent Dirichlet Allocation)アルゴリズムを使用して、タグ間の相関関係を見つける必要があります。Apache Mahout を使用してそれを行う方法を見つけるのを手伝ってくれませんか。

私はまた、正確にどの入力フォーマット mahout が望んでいるのか混乱していますか?

誰かが魔法使いの初心者に良いものを共有してくれると助かります

4

1 に答える 1

1

返事が遅れるかもしれません。ただし、Mahout は 0.6 より上のバージョンの LDA をサポートしなくなりました。トピック モデルを実行するタスクを実行するには、lda の代わりに Cvb を使用する必要があります。

次のリンクが役立ちます。

https://mahout.apache.org/users/clustering/lda-commandline.html https://mahout.apache.org/users/clustering/latent-dirichlet-allocation.html

于 2014-10-30T00:24:22.453 に答える