LDA アルゴリズムを使用して、多くのドキュメントをさまざまなトピックにクラスター化しています。LDA アルゴリズムには、入力パラメーター (トピックの数) が必要です。どうすればこれを判断できますか?
Reuter コーパスを使用してソリューションのベンチマークを行っています。また、ロイターコーパスにはトピック番号が用意されています。Reuter テキストをクラスタリングする場合、同じトピック番号を入力する必要がありますか? クラスタリングの結果をロイターの結果と比較しますか?
しかし、本番環境では、トピックに基づいて実際にクラスター化する前に、どうすればトピックの数を知ることができますか? 鶏卵問題のようなものです。