問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lda - LDA は 1 つの単語に複数のトピックを割り当てることができますか?
潜在的ディリクレ配分法 LDA について読み始めたばかりで、プロジェクトに適用したいと考えています。
LDA がトピックを複数の単語に割り当てることができるかどうかを教えてください。
たとえば、A 条は「川の銀行」について、B 条は「金融における銀行の役割」について述べています。したがって、LDA では「銀行」という言葉が 2 つの異なるトピックに割り当てられる可能性があるでしょうか?
topic-modeling - トピック モデリング用のテスト ドキュメント コレクション
HDP トピック モデルを実現し、人工データでテストしました。それでは、実際のデータでテストしたいと思います。小さな見出し語化された文書コレクションへのリンクを教えていただけますか?
python - gensimのLDAトピックの単語の完全な分布を出力するには?
次のコードのlda.show_topics
モジュールは、各トピックの上位 10 単語の分布のみを出力します。コーパス内のすべての単語の完全な分布を出力するにはどうすればよいですか?
machine-learning - Mahout TopicModel の出力に対して新しいドキュメントを推測するにはどうすればよいですか?
Mahout LDA CVB プログラム/オフライン バッチ実行からのトピック モデルが与えられた場合、モデル/オンライン Web サービス呼び出しを使用して新しいドキュメントを推測するのが好きです。
これらのドキュメントは、新規作成や推論にはあまり役に立ちません。* https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/clustering/lda/cvb/TopicModel.html * http://svn.apache.org/viewvc/mahout/trunk /core/src/main/java/org/apache/mahout/clustering/lda/cvb/TopicModel.java?view=マークアップ
インターネットやどこかでサンプル コードを見つけることさえできませんでした。
ここで、Javaコードでやりたいと思ったのですが、
TopicModel model = new TopicModel();
Vector documentInTermFrequency = new RandomAccessSparseVector();
documentInTermFrequence.setQuick(termIdX, 10);
documentInTermFrequence.setQuick(termIdY, 20);
Vector docTopic = new DenseVector(new Double[10] { 0.1, 0.1, ..., 0.1 }); // 0.1 probabilities
Vector documentTopicInference = model.infer(documentInTermFrequence, docTopic);
このようなことを試みた人を見たことがありませんか?誰もこのようなことを試したことがありますか?
どんな提案や指針も高く評価されます。
parameters - LDA モデルでは、多項パラメータ (シータ) はディリクレ事前重み (アルファ) からどのように引き出されますか?
私は最近、LDA (Latent Dirichlet Allocation) モデルを勉強している新入生です。しかし、私は問題に直面しました。
シータはアルファからどのように引き出されますか?
theta ~ Dir (アルファ)
私の簡単な理解によると、変数 theta は長さ K のベクトルであり、そのコンポーネントはドキュメント内のトピックの比率を表します。そして、シータはドキュメントごとに異なります。また、コーパス レベルでは、アルファは依然として K ベクトルですが、シータは M(ドキュメント数) × K(トピック数) サイズの行列です。
最初の質問: 上で述べたことは本当ですか?
2 番目の質問: true の場合、ドキュメントについて、同じディリクレ分布から異なるシータ (K ベクトル) をどのように引き出すことができますか?
python-2.7 - トピックモデリングのための深い信念ネットワークの実装
Geoffrey Hinton と Ruslan Salakhutdinov によるSemantic Hashing の記事 ( http://www.cs.toronto.edu/~hinton/absps/sh.pdf )のディープ ビリーフ ネットワークを実装しようとしています。制限付きボルツマン マシン (RBM) で制限付きポアソン モデルを実装する方法を理解するのに苦労しています。その結果、私のモデルは実数値の単語数ベクトルを取り、重みを正しく更新します。
以下に、私の RBM の重要なコードを示します。
ベルヌーイ分布と制約付きポアソン モデルの方法を以下に示します。
python - gensim コーパスをロードする際の unpickling エラーを解決するには? - パイソン
シリアル化されたコーパスをに保存できますfoobar.mm
が、読み込もうとするとUnpicklingError
. ただし、辞書のロードは問題ないようです。誰でもこれを解決する方法を知っていますか? そして、なぜこれが起こるのですか?