私は LDA を読み、ドキュメントのコレクションを入力したときにトピックがどのように生成されるかについての数学を理解しています。
参考文献によると、LDA は、ドキュメントのコレクションだけが与えられた場合 (監視は必要ありません)、そのコレクション内のドキュメントによって表現された「トピック」を明らかにすることができるアルゴリズムです。したがって、LDA アルゴリズムと Gibbs Sampler (または Variational Bayes) を使用することで、一連のドキュメントを入力し、出力としてトピックを取得できます。各トピックは、確率が割り当てられた用語のセットです。
私が理解できないのは、上記が当てはまる場合、なぜ多くのトピック モデリング チュートリアルで、データセットをトレーニング セットとテスト セットに分離することについて話しているのですか?
LDA を使用してモデルをトレーニングし、それを別のテスト データセットの分析に使用する方法の手順 (基本的な概念) を誰か説明してもらえますか?