41

私は LDA を読み、ドキュメントのコレクションを入力したときにトピックがどのように生成されるかについての数学を理解しています。

参考文献によると、LDA は、ドキュメントのコレクションだけが与えられた場合 (監視は必要ありません)、そのコレクション内のドキュメントによって表現された「トピック」を明らかにすることができるアルゴリズムです。したがって、LDA アルゴリズムと Gibbs Sampler (または Variational Bayes) を使用することで、一連のドキュメントを入力し、出力としてトピックを取得できます。各トピックは、確率が割り当てられた用語のセットです。

私が理解できないのは、上記が当てはまる場合、なぜ多くのトピック モデリング チュートリアルで、データセットをトレーニング セットとテスト セットに分離することについて話しているのですか?

LDA を使用してモデルをトレーニングし、それを別のテスト データセットの分析に使用する方法の手順 (基本的な概念) を誰か説明してもらえますか?

4

2 に答える 2

40

データをトレーニングセットとテストセットに分割することは、学習アルゴリズムのパフォーマンスを評価する際の一般的な手順です。教師あり学習の方が明確です。トレーニングセットでモデルをトレーニングしてから、テストセットでの分類が実際のクラスラベルとどの程度一致しているかを確認します。教師なし学習の場合、このような評価は少し注意が必要です。トピックモデリングの場合、パフォーマンスの一般的な尺度は困惑です。トレーニングセットでモデル(LDAなど)をトレーニングすると、テストセットでモデルがどのように「困惑」しているかがわかります。具体的には、テストドキュメントの単語数が、トピックによって表される単語分布によってどの程度適切に表されるかを測定します。

パープレキシティは、モデル間の相対的な比較やパラメーター設定には適していますが、数値はあまり意味がありません。私は、次のやや手動の評価プロセスを使用してトピックモデルを評価することを好みます。

  1. トピックを調べる:各トピックで最も可能性の高い単語を調べます。それらは、まとまりのある「トピック」を形成しているように聞こえますか、それともランダムな単語のグループを形成しているように聞こえますか?
  2. トピックの割り当てを調べる:トレーニングからランダムなドキュメントをいくつか差し出し、LDAがそれらに割り当てるトピックを確認します。割り当てられたトピックのドキュメントと上位の単語を手動で調べます。トピックは、ドキュメントが実際に話していることを実際に説明しているように見えますか?

このプロセスは思ったほど良くなく定量的ではないことを私は理解していますが、正直なところ、トピックモデルの適用も定量的であることはめったにありません。適用している問題に応じてトピックモデルを評価することをお勧めします。

幸運を!

于 2012-06-25T22:51:01.733 に答える