2

私は最近、LDA (Latent Dirichlet Allocation) モデルを勉強している新入生です。しかし、私は問題に直面しました。

シータはアルファからどのように引き出されますか?

theta ~ Dir (アルファ)

私の簡単な理解によると、変数 theta は長さ K のベクトルであり、そのコンポーネントはドキュメント内のトピックの比率を表します。そして、シータはドキュメントごとに異なります。また、コーパス レベルでは、アルファは依然として K ベクトルですが、シータは M(ドキュメント数) × K(トピック数) サイズの行列です。

最初の質問: 上で述べたことは本当ですか?

2 番目の質問: true の場合、ドキュメントについて、同じディリクレ分布から異なるシータ (K ベクトル) をどのように引き出すことができますか?

4

1 に答える 1

2

最初の答え: はい、その通りです。

2番目の答え:あなたが言及したように、アルファはKベクトルです。ディリクレ分布からサンプルを取得すると、別のK ベクトルが得られます。値自体は alpha の値に依存しますが、それらの合計はすべて 1 になります (これは、1 つのドキュメント内のすべてのトピックの比率と見なすことができる方法です)。ドキュメントごとに 1 回サンプリングして、M ベクトルを取得します。これが、MxK 行列シータを取得する方法です。

ディリクレ分布をサンプリングして得られるベクトルの長さは、そのパラメータ alpha の長さに依存します。

于 2013-10-06T22:08:25.473 に答える