3

LDA アルゴリズムを使用して、多くのドキュメントをさまざまなトピックにクラスター化しています。LDA アルゴリズムには、入力パラメーター (トピックの数) が必要です。どうすればこれを判断できますか?

Reuter コーパスを使用してソリューションのベンチマークを行っています。また、ロイターコーパスにはトピック番号が用意されています。Reuter テキストをクラスタリングする場合、同じトピック番号を入力する必要がありますか? クラスタリングの結果をロイターの結果と比較しますか?

しかし、本番環境では、トピックに基づいて実際にクラスター化する前に、どうすればトピックの数を知ることができますか? 鶏卵問題のようなものです。

4

1 に答える 1

1

これにアプローチできる 1 つの方法は、k 手段を使用することです。Silhouette (またはエルボー カーブですが、これには手動の介入が必要になると思います) を使用して、最適な数のクラスターを取得できます。この数をトピックの数として使用できます。

于 2017-03-01T09:42:15.850 に答える