3

LDA に似た手法を探していますが、最適な「混合物」の数が不明な場合は、それができるものはありますか?

4

2 に答える 2

6

これには 2 つの方法があります。1 つはハックですが簡単です。もう 1 つは、より意欲的ですが、より複雑です。前者から始めて、単純にk (トピックの数) の範囲を試して、これらのそれぞれの下で観測されたデータの可能性を比較することができます。状況に応じて、より多くのトピックに対してペナルティを科したいでしょう。または、事前分布をkに明示的に配置することもできます(つまり、主観的に予想されるクラスター数を中心とする正規分布)。いずれにせよ、可能性を最大化するkを選択するだけです。

より原則的なアプローチは、ベイジアン ノンパラメトリックと、特にトピック モデルの場合のディリクレ プロセスを使用することです。この論文を見てください。ここで利用可能な実装があると思いますが、あまり調べていません。

于 2012-10-12T11:50:06.710 に答える
2

バイロンが言ったように、これを行う最も簡単な方法は、kの異なる値の可能性を比較することです。ただし、一部の保持されたデータの確率を考慮するように注意する場合(つまり、モデルの誘導に使用されない場合)、これは当然、過剰適合にペナルティを課すため、kを正規化する必要はありません。これを行う簡単な方法は、トレーニングデータを取得し、それをトレーニングセットと開発セットに分割し、妥当なk値の範囲を検索して、トレーニングセットからモデルを誘導し、開発セットの確率を計算することです。誘導モデル。

LDAの下で尤度を正確に計算することは困難であるため、近似推論を使用する必要があることに注意してください。このホワイトペーパーではこれについて詳しく説明しますが、標準のLDAパッケージ(マレットをお勧めします:http://mallet.cs.umass.edu/)を使用する場合は、すでにこの機能を備えている必要があります。

ノンパラメトリックバージョンは確かに正しい方法ですが、ノンパラメトリックモデルでの推論は計算コストがかかるため、上記が機能しない場合を除いて、これを追求することを躊躇します。

于 2012-10-12T12:20:16.490 に答える