python - LDA の代替形式の実装

Question

私は、6 つの異なるソースからのニュースデータのコーパスで潜在的ディリクレ配分法を使用しています。私はトピックの進化と出現に興味があり、時間の経過とともにソースがどのように似ているか、どのように異なるかを比較したいと考えています。Author-Topic モデル、Topics Over Time など、多くの修正された LDA アルゴリズムがあることは知っています。

私の問題は、これらの代替モデル仕様のほとんどが標準形式で実装されていないことです。いくつかは Java で利用できますが、ほとんどは会議論文としてのみ存在します。これらのアルゴリズムのいくつかを自分で実装するための最良の方法は何ですか? 私は R とジャグにかなり精通しており、十分な時間があれば Python でつまずくことができます。私は喜んでコードを書きますが、どこから始めたらよいかよくわかりませんし、C や Java についても知りません。原稿の式だけで JAGS や Python でモデルを構築できますか? もしそうなら、誰かがこれを行う例を教えてもらえますか? ありがとう。

score 4 · Accepted Answer

私の友人の応答は以下の通りです。

最初に、ここ (http://www.pnas.org/content/101/suppl.1/5228.full.pdf+html) で見られる折りたたまれた Gibbs サンプラーの Python 実装を作成し、ここ (http:// cxwangyi.files.wordpress.com/2012/01/llt.pdf)。これは非常に遅かった。

次に、この論文 (http://books.nips.cc/papers/files/nips19/NIPS2006_0511.pdf) の C 実装の Python ラッピングを使用しました。これは f*ck のように高速ですが、結果は NMF で見られるほど大きくはありません。

しかし、私が見た NMF の実装は、scitkits を使用しており、最近リリースされた scipy スパース互換の NIMFA ライブラリでさえ、かなりの規模のコーパスをすべて爆破します。私の新しいシロナガスクジラは、物事のスライスされた分散実装です。これは自明ではありません。

score 3 · Accepted Answer

Pythonでは、PyMCを知っていますか? モデルとフィッティングアルゴリズムの両方を柔軟に指定できます。

また、R と JAGS から始める場合は、「rjags パッケージを使用して R で JAGS を使用する」というチュートリアルと、例集があります。

python - LDA の代替形式の実装

2 に答える 2

Related

Reference