nlp - テキストクラスタリングの LDA (Latent Dirichlet Allocation) アルゴリズムでトピックの数を決定する方法は?

翻译自：https://stackoverflow.com/questions/21109823 2014-01-14T09:21:46.697

5890 次

3

LDA アルゴリズムを使用して、多くのドキュメントをさまざまなトピックにクラスター化しています。LDA アルゴリズムには、入力パラメーター (トピックの数) が必要です。どうすればこれを判断できますか?

Reuter コーパスを使用してソリューションのベンチマークを行っています。また、ロイターコーパスにはトピック番号が用意されています。Reuter テキストをクラスタリングする場合、同じトピック番号を入力する必要がありますか? クラスタリングの結果をロイターの結果と比較しますか?

しかし、本番環境では、トピックに基づいて実際にクラスター化する前に、どうすればトピックの数を知ることができますか? 鶏卵問題のようなものです。

1 に答える 1

1

これにアプローチできる 1 つの方法は、k 手段を使用することです。Silhouette (またはエルボーカーブですが、これには手動の介入が必要になると思います) を使用して、最適な数のクラスターを取得できます。この数をトピックの数として使用できます。

于 2017-03-01T09:42:15.850 に答える