問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ドキュメント用語マトリックスの空白エントリをクリアするための回避策は?
トピック モデルを生成するために過去に使用した r コードがいくつかあります。少し関係のない問題を修正することを期待して、すべての r パッケージを更新するまで、すべてが正常に機能していました。現在、以前は機能していたコードが壊れているようで、どうすればよいかわかりません。
この投稿を読ん で、最初にこれを設定するのに非常に役立つことがわかりました。まばらな用語が削除された後に空白行を消去して、後続の分析を設定する方法について説明します。現在のパッケージで同じコードを入力すると、次のようになります。
問題を特定し、機能するソリューションにロールバックする方法を知っている人はいますか? ありがとう。
python - RPy2 を使用したトピック モデリング
RPy を使用して Python で LDA を使用したいと考えています。私はすでにgensim
パッケージを使用してこれを試しましたが、まだ試してみたいと思っRPy2
ています.
RI を使用している間は、次のコードを使用します。
上記のコードを RPy2 の Python コードに変換したいと思います。私はまだこれを試しました:
以下は DEBUG ログです。
R コードを Python の RPy2 コードに変換するにはどうすればよいですか? 助けてください!
machine-learning - テキスト分類に関する一般的な質問
私はトピックモデル、分類などは初めてです...今はすでにプロジェクトを行っており、多くの研究論文を読んでいます。私のデータセットは、人間がラベル付けした短いメッセージで構成されています。これは私がこれまでに思いついたものです:
- 私のデータは短いので、ドキュメント内の潜在語を検出するのに役立つ潜在的ディリクレ割り当て (およびそのすべてのバリアント) について読みました。
- これに基づいて、JGibbLDA http://jgibblda.sourceforge.netの Java 実装を見つけましたが、私のデータにはラベルが付けられているため、JGibbLabeledLDA と呼ばれる改善があります https://github.com/myleott/JGibbLabeledLDA
- ほとんどの研究論文で、Weka についての良いレビューを読んだので、データセットでこれをいじりました
- ただし、ここでも、私のデータセットにはラベルが付けられているため、マルチラベル データの実装を持つMeka http://sourceforge.net/projects/meka/と呼ばれる Weka の拡張機能を見つけました。
- マルチラベル データについて読むと、one-vs-all やチェーン分類子など、最もよく使用されるアプローチを知っています...
私がここにいる理由は、次の質問に対する答えを得たいからです。
- LDA は私の問題に対する適切なアプローチですか?
- LDA を分類器 (NB、SVM、バイナリ関連性、ロジスティック回帰など) と一緒に使用する必要がありますか?それとも、LDA は、新しい目に見えないデータの分類器/推定器として機能するのに「十分」ですか?
- JGibbLDA / JGibbLabeledLDA からの出力をどのように解釈する必要がありますか。これらのファイルから、メッセージ全体 (各単語だけでなく) にどの単語/ラベルが割り当てられているかを知るにはどうすればよいですか?
- Weka/Meka を使用して、前の質問で必要なものを取得するにはどうすればよいですか (LDA が探しているものではない場合)
誰か、または複数の人が、これを行う必要がある方法を理解するのを手伝ってくれることを願っています. すべての一般的な考え方はここでは問題ではありません。文学から実践への移行方法がわからないだけです。ほとんどの論文は、実験をどのように実行するかについて十分な説明を提供していないか、トピックに関する私の背景には技術的すぎます.
ありがとう!
python - できればGensimを拡張する、動的トピックモデル用の効率的なpythonライブラリはありますか?
トピック モデルで Twitter ストリーム データをモデル化しようとしています。使いやすいソリューションである Gensim は、そのシンプルさが印象的です。LSI の真のオンライン実装がありますが、LDA の実装はありません。Twitter のような変化するコンテンツ ストリームの場合、動的トピック モデルは理想的です。この目的で Gensim を利用できる方法、またはハック - 実装または戦略さえありますか?
Gensimまたは独立したものから(できれば)派生する他のpython実装はありますか?早く始めたいのでpythonの方がいいのですが、何か工夫して最適解があれば教えてください。
ありがとう。