Apache Mahout の Web サイトhttps://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.htmlから、LDA モデルを適合させ、計算されたトピックを P("word" の形式で出力する手順を確認できます。 |「トピック番号」)。ただし、トピックの分布を予測するために、トレーニング済みのモデルをテスト データに適用する方法に関する情報はありません。それとも、条件付き確率の出力を使用してテスト データ セットからトピックを見つける独自のプログラムを作成する必要がありますか?
質問する
1390 次
1 に答える
0
2009 Wallach et.による出版物をご覧ください。アル。ここで「トピックモデルの評価方法」というタイトル。セクション 4 を見てください。P(z|w) を計算する 3 つの方法について言及しています。1 つは重要度サンプリングに基づいており、他の 2 つは「Chib-style estimator」と「left-to-right estimator」と呼ばれています。
Mallet には、左から右への推定メソッドが実装されています。
于 2012-12-05T02:26:12.760 に答える