mahout - Mahout LDA テストデータセットのトピックを予測する方法は?

Question

Apache Mahout の Web サイトhttps://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.htmlから、LDA モデルを適合させ、計算されたトピックを P("word" の形式で出力する手順を確認できます。 |「トピック番号」)。ただし、トピックの分布を予測するために、トレーニング済みのモデルをテストデータに適用する方法に関する情報はありません。それとも、条件付き確率の出力を使用してテストデータセットからトピックを見つける独自のプログラムを作成する必要がありますか?

score 0 · Accepted Answer

2009 Wallach et.による出版物をご覧ください。アル。ここで「トピックモデルの評価方法」というタイトル。セクション 4 を見てください。P(z|w) を計算する 3 つの方法について言及しています。1 つは重要度サンプリングに基づいており、他の 2 つは「Chib-style estimator」と「left-to-right estimator」と呼ばれています。

Mallet には、左から右への推定メソッドが実装されています。

mahout - Mahout LDA テスト データ セットのトピックを予測する方法は?

1 に答える 1

Related

Reference

mahout - Mahout LDA テストデータセットのトピックを予測する方法は?