7

私は、6 つの異なるソースからのニュース データのコーパスで潜在的ディリクレ配分法を使用しています。私はトピックの進化と出現に興味があり、時間の経過とともにソースがどのように似ているか、どのように異なるかを比較したいと考えています。Author-Topic モデル、Topics Over Time など、多くの修正された LDA アルゴリズムがあることは知っています。

私の問題は、これらの代替モデル仕様のほとんどが標準形式で実装されていないことです。いくつかは Java で利用できますが、ほとんどは会議論文としてのみ存在します。これらのアルゴリズムのいくつかを自分で実装するための最良の方法は何ですか? 私は R とジャグにかなり精通しており、十分な時間があれば Python でつまずくことができます。私は喜んでコードを書きますが、どこから始めたらよいかよくわかりませんし、C や Java についても知りません。原稿の式だけで JAGS や Python でモデルを構築できますか? もしそうなら、誰かがこれを行う例を教えてもらえますか? ありがとう。

4

2 に答える 2

4

私の友人の応答は以下の通りです。

最初に、ここ (http://www.pnas.org/content/101/suppl.1/5228.full.pdf+html) で見られる折りたたまれた Gibbs サンプラーの Python 実装を作成し、ここ (http:// cxwangyi.files.wordpress.com/2012/01/llt.pdf)。これは非常に遅かった。

次に、この論文 (http://books.nips.cc/papers/files/nips19/NIPS2006_0511.pdf) の C 実装の Python ラッピングを使用しました。これは f*ck のように高速ですが、結果は NMF で見られるほど大きくはありません。

しかし、私が見た NMF の実装は、scitkits を使用しており、最近リリースされた scipy スパース互換の NIMFA ライブラリでさえ、かなりの規模のコーパスをすべて爆破します。私の新しいシロナガスクジラは、物事のスライスされた分散実装です。これは自明ではありません。

于 2012-04-16T15:48:40.290 に答える
3

Pythonでは、PyMCを知っていますか? モデルとフィッティング アルゴリズムの両方を柔軟に指定できます。

また、R と JAGS から始める場合は、「rjags パッケージを使用して R で JAGS を使用する」というチュートリアルと例集があります。

于 2012-04-16T16:20:54.050 に答える