0

ディリクレ分布は、ドキュメント モデリングで使用されます。

この記事から次のことを読みました。

さまざまなディリクレ分布を使用して、さまざまな作成者によるドキュメントやさまざまなトピックに関するドキュメントをモデル化できます。

では、それが別の著者についてのモデリングなのか、それとも別のトピックに関するモデリングなのか、どうすればわかるのでしょうか? ドキュメント クラスタリング タスクでは、クラスタリング結果のセマンティックが直接決定されるため、これは重要です。

また、モデリングの可能な側面を著者やトピックだけに限定するのは主観的すぎると感じました。特定の側面を支持する強力な証拠はないように思われるため、他の潜在的/潜在的な側面である可能性があります.

誰かがこれに光を当てることができますか?

4

2 に答える 2

2

著者やトピックをモデル化するのではなく、潜在的な特徴であり、著者やトピックなどの現実世界の概念にうまくマッピングされる可能性があります。潜在的な機能について、どのドキュメントが最も強く関連付けられているかを確認し、その機能が「約」しているものについて直感的な解釈を開発することができます。

于 2014-02-22T12:35:54.147 に答える