問題タブ [dirichlet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1512 参照

math - カウントデータから事前ディリクレを学習するためのRパッケージはありますか

Rカウントデータから事前にディリクレをトレーニングするために使用できるパッケージを探しています。を使用している同僚をR探していますが、自分では使用していないため、パッケージの検索方法がよくわかりません。「R」は特定されていない検索文字列なので、検索するのは少し難しいです。CRANには何もないようですが、他に見るべき場所はありますか?

0 投票する
4 に答える
1769 参照

java - ドキュメントの類似性

tf/idf を使用して、2 つのドキュメント間のコンサイン類似度を計算しました。いくつかの制限があり、あまりうまく機能しません。

ドキュメントの類似度を計算するために、LDA (潜在的ディリクレ配分) を探しました。私はこれについてあまり知りません。私の問題についても多くのものを見つけることができませんでした。

私の問題に関連するチュートリアルを教えてください。または、LDAでこのタスクを達成するにはどうすればよいかアドバイスをいただけますか???

ありがとう

PS: また、LDA でそのようなタスクを実行するためのソース コードはありますか??

0 投票する
1 に答える
701 参照

machine-learning - 質点、ディリクレ過程におけるディラックデルタ

ディリクレ過程を扱う場合、[Teh, 2007] によれば、DP はベース確率 H とスケール係数「アルファ」によって定義されます。

Stick Breaking Construction によると、ランダムは DP から G を引き出します。

G~DP(α,H)

によって与えられます:

G=sum(pi_k*delta_theta_k) 1 から無限大までの k

pi_k は、単一の棒の長さが与えられたベータ分布からの順序付けされた描画です

delta_theta_k は、「theta_k」を中心とする質量点です (theta_k は基本分布からランダムに描画されます)。

私はすべての変数をほぼ明確に理解していますが、「マスポイント」が何を意味するのか、それがそのドローの確率密度なのか、それとも何か他のものなのかわかりません。

任意の方向に私を向けることができれば素晴らしいと思います.参考だけが素晴らしいでしょう.

ありがとう

0 投票する
1 に答える
720 参照

apache - Mahout LDA 出力でドキュメント ID を特定する

mahout lda を正常に実行し、コマンド mahout ldatopics を使用して出力を表示しました。

たとえば、私のトピックは科学とスポーツです。出力は次のようになります: トピック 0 バスケットボール、プレー、野球 トピック 1 研究、研究、哲学

私の質問は、個々の記事のグループまたはクラスターをどのように識別できるかです。追加するすべての新しい記事が特定のクラスター/トピックにグループ化または追加されるように、ID 番号または何らかの追跡がありますか。

クラスターを既に持っている場合、次のステップは何ですか?

ありがとう

0 投票する
2 に答える
2066 参照

algorithm - LDA とトピック モデル

LDA とトピック モデルを数週間勉強しましたが、数学が苦手なため、内部アルゴリズムを完全には理解できませんでした。GibbsLDA 実装を使用し、多くのドキュメントを入力し、トピック番号を 100 に設定しました。各ドキュメントの各トピックのトピック比率を格納する「final.theta」という名前のファイル。この結果は良好です。トピック比率を使用して、他の多くのことを行うことができます。しかし、LDA で Blei の C 言語の実装を試したところ、final.gamma という名前のファイルしか得られませんでしたが、このファイルをトピック プロポーション スタイルに変換する方法がわかりません。誰でも私を助けることができますか?また、LDA モデルには多くの改良版 (CTM、HLDA など) があることを知りました。LDA に似たトピック モデルを見つけることができれば、つまり、大量のドキュメントを入力したときに、ドキュメント内のトピックの割合を直接出力できます。 .

0 投票する
1 に答える
488 参照

matlab - MatLab BayesNetToolbox パラメーター学習

私の質問は、MatLab のBayesNetToolboxの「learn_params()」関数に固有のものです。ユーザーマニュアルでは、「learn_params()」は、入力データが完全に観察されている場合にのみ使用するのに適していると記載されています。観測されていない値を NaN として表した、部分的に観測されたデータセットで試してみました。

「learn_params()」はデータセットにないNaNやノード状態の組み合わせも扱えるようです。ディリクレ事前確率を適用して 0 の値を平滑化すると、すべてのノードに対して「適切な」MLE 分布が得られます。これを行うスクリプトをコピーしました。

私がやっていることは理にかなっているのか、何かが欠けているのか、つまり「learn_params()」が部分的に観測されたデータで使用できない理由を誰かが明確にすることができますか?

これをテストする MatLab スクリプトは次のとおりです。

0 投票する
1 に答える
1430 参照

parameters - LDA モデルでは、多項パラメータ (シータ) はディリクレ事前重み (アルファ) からどのように引き出されますか?

私は最近、LDA (Latent Dirichlet Allocation) モデルを勉強している新入生です。しかし、私は問題に直面しました。

シータはアルファからどのように引き出されますか?

theta ~ Dir (アルファ)

私の簡単な理解によると、変数 theta は長さ K のベクトルであり、そのコンポーネントはドキュメント内のトピックの比率を表します。そして、シータはドキュメントごとに異なります。また、コーパス レベルでは、アルファは依然として K ベクトルですが、シータは M(ドキュメント数) × K(トピック数) サイズの行列です。

最初の質問: 上で述べたことは本当ですか?

2 番目の質問: true の場合、ドキュメントについて、同じディリクレ分布から異なるシータ (K ベクトル) をどのように引き出すことができますか?

0 投票する
0 に答える
178 参照

dictionary - LDA の辞書を作成する方法

私は潜在的な Dirchlet Allocation に 2 週間取り組んでおり、それを試すために辞書とトレーニング ファイルを作成しようとしています。Blei の train ファイルを使用して、Matlab と gcc で既に試しましたが、辞書の作成方法がわかりません。誰かが私を助けることができますか?ありがとうアンドレア

0 投票する
1 に答える
1785 参照

r - Rにプロットが表示されない

次のコードを修正するにはどうすればよいですか

この空のプロットを取得しないようにするには:

空のディリクレ プロット

0 投票する
5 に答える
30379 参照

python - gensim を使用した LDA 実装の理解

Python の gensim パッケージが潜在的ディリクレ割り当てを実装する方法を理解しようとしています。私は次のことをしています:

データセットを定義する

ストップワードを削除した後、辞書とコーパスを作成します。

次に、LDA モデルを定義します。

次に、トピックを印刷します。

この結果から多くを理解することはできません。各単語の出現確率を提供していますか? また、トピック #1、トピック #2 などの意味は何ですか? 多かれ少なかれ、最も重要なキーワードのようなものを期待していました。

gensim のチュートリアルは既に確認しましたが、あまり役に立ちませんでした。

ありがとう。