Mallet でトピック モデリングを使用しようとしていますが、質問があります。
モデルをいつ再構築する必要があるかを知るにはどうすればよいですか? たとえば、Web からクロールしたこの量のドキュメントがあり、Mallet が提供するトピック モデリングを使用して、モデルを作成し、それを使用してドキュメントを推測できる可能性があります。しかし、時間の経過とともに、私がクロールした新しいデータにより、新しい主題が現れる可能性があります. その場合、モデルを最初から現在まで再構築する必要があるかどうかはどうすればわかりますか?
毎月クロールするドキュメントに対してそうしようと考えていました。誰かアドバイスしてもらえますか?
したがって、トピック モデリングは、一定量のトピック (入力パラメーター k、トピック数) の下のテキストにより適しています。そうでない場合、使用する番号を実際にどのように決定しますか?