4

LDA とトピック モデルを数週間勉強しましたが、数学が苦手なため、内部アルゴリズムを完全には理解できませんでした。GibbsLDA 実装を使用し、多くのドキュメントを入力し、トピック番号を 100 に設定しました。各ドキュメントの各トピックのトピック比率を格納する「final.theta」という名前のファイル。この結果は良好です。トピック比率を使用して、他の多くのことを行うことができます。しかし、LDA で Blei の C 言語の実装を試したところ、final.gamma という名前のファイルしか得られませんでしたが、このファイルをトピック プロポーション スタイルに変換する方法がわかりません。誰でも私を助けることができますか?また、LDA モデルには多くの改良版 (CTM、HLDA など) があることを知りました。LDA に似たトピック モデルを見つけることができれば、つまり、大量のドキュメントを入力したときに、ドキュメント内のトピックの割合を直接出力できます。 .

4

2 に答える 2

1

Blei 実装の問題は、次を実行して変分推論を行っていることだと思います。

$ lda inf [引数...]

トピックの推定を行いたい場合は、次のようにします。

$ lda est [引数...]

これが実行されると、現在のディレクトリまたはオプションの最後の引数で指定されたディレクトリに「final.beta」というファイルが作成されます。次に、tar に含まれている Python スクリプト「topics.py」を実行します。ここの readme: http://www.cs.princeton.edu/~blei/lda-c/readme.txtには、すべて、特にセクション B と D が記載されています。

(それでも意味がわからない場合は、お知らせください)

CTM などの改善点について: HLDA については何も知りませんが、過去に LDA と CTM の両方を使用したことがあります。異なるデータ。CTM は、ドキュメントが相関しているという仮定を立て、その仮定が正しい限り、結果を改善するために使用します。

お役に立てれば!

于 2012-03-09T18:18:37.437 に答える