2

mahout lda を正常に実行し、コマンド mahout ldatopics を使用して出力を表示しました。

たとえば、私のトピックは科学とスポーツです。出力は次のようになります: トピック 0 バスケットボール、プレー、野球 トピック 1 研究、研究、哲学

私の質問は、個々の記事のグループまたはクラスターをどのように識別できるかです。追加するすべての新しい記事が特定のクラスター/トピックにグループ化または追加されるように、ID 番号または何らかの追跡がありますか。

クラスターを既に持っている場合、次のステップは何ですか?

ありがとう

4

1 に答える 1

0

私はソースコードを調べてきましたが、ドキュメントごとのトピックを推定するためのアルファ値の入力がなく、LDAStateクラスにlogProbWordGivenTopic(int, int)メソッドですがgetProbTopicGivenDocument()、LDA の mahout 実装は、特定のドキュメントのトピック分布の発見を扱っていないとしか思えません。他の誰かがよりよく知っているなら、私は間違っているのが大好きです。

于 2011-03-03T17:15:09.530 に答える