ディリクレ分布は、ドキュメント モデリングで使用されます。
この記事から次のことを読みました。
さまざまなディリクレ分布を使用して、さまざまな作成者によるドキュメントやさまざまなトピックに関するドキュメントをモデル化できます。
では、それが別の著者についてのモデリングなのか、それとも別のトピックに関するモデリングなのか、どうすればわかるのでしょうか? ドキュメント クラスタリング タスクでは、クラスタリング結果のセマンティックが直接決定されるため、これは重要です。
また、モデリングの可能な側面を著者やトピックだけに限定するのは主観的すぎると感じました。特定の側面を支持する強力な証拠はないように思われるため、他の潜在的/潜在的な側面である可能性があります.
誰かがこれに光を当てることができますか?