6

トピック モデルで Twitter ストリーム データをモデル化しようとしています。使いやすいソリューションである Gensim は、そのシンプルさが印象的です。LSI の真のオンライン実装がありますが、LDA の実装はありません。Twitter のような変化するコンテンツ ストリームの場合、動的トピック モデルは理想的です。この目的で Gensim を利用できる方法、またはハック - 実装または戦略さえありますか?

Gensimまたは独立したものから(できれば)派生する他のpython実装はありますか?早く始めたいのでpythonの方がいいのですが、何か工夫して最適解があれば教えてください。

ありがとう。

4

3 に答える 3

3

Gensim の DTM ラッパーは動作していますが、現時点では特に完全なドキュメントはありません。Gensim 側で最も役に立つのは、DTM の例ですdocs/notebooks。これは、すべての入力変数がどのように見える必要があるかを示しています。注意すべき点がいくつかあります。

  • DTM モデルが移動されましたgensim.models.wrappers.dtmmodel
  • initialize_lda=TrueDTM コードのバグのため、設定する必要があります(これは将来的にデフォルトになります -- PR #676 )

また、DTM 自体のコンパイル済みバージョンも必要です (その実行可能ファイルへのパスを指定します)。github repo から適切な実行可能ファイルを使用してみることができますが、それが機能しない場合は、含まれている.xml を実行して元のコードをコンパイルする必要があるでしょうmakefile

于 2016-05-02T16:28:33.377 に答える
2

まさにこれについて David Blei と John Lafferty と話しましたが、現時点での答えはノーです。

Sean Gerrish のDTM 実装は、文書化されたメモリ リークで動作しますが、管理可能なコレクションで動作します。

于 2014-04-23T17:20:40.147 に答える