問題タブ [expectation-maximization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - EM ソフト クラスタリングと K-Means のベンチマーク?
私は 2 つの実装を持っています。1 つは K-Means で、もう 1 つはソフト クラスタリングを行う EM です。しかし、精度の点でそれらを検証する方法がわかりません。つまり、より優れたクラスターを取得することで、どちらがより優れたパフォーマンスを発揮するかということです。私の推測では、EM は K-Means で発生するハード割り当てではなくソフト割り当てを行っているためです。EM の方がパフォーマンスは優れていますが、この比較を行う方法がわかりません...
EM ソフト クラスタリングと K-Means の精度をベンチマークするにはどうすればよいですか? また、合成データに関する提案はありますか?
r - ggplot2 を使用して mixEM タイプのデータをプロットする方法についての提案
元のデータから取得した 100 万レコードのサンプルがあります。(参考までに、ほぼ同様の分布を生成する可能性があるこのダミー データを使用することができます。
) 私はヒストグラムが 2 つの対数正規分布の混合であると信じており、次のコードを使用して EM アルゴリズムを使用して合計分布を適合させようとしました。
最初のプロットは対数尤度プロットで、2 番目のプロット (もう一度 Return キーを押した場合) は、次の密度曲線のようになります。
前述したように、c1 は mixEM[] 型であり、plot() 関数はそれに対応できます。密度曲線を色で塗りつぶしたい。これは ggplot2() を使用して簡単に実行できますが、ggplot2() は mixEM[] 型のデータをサポートしておらず、次のメッセージがスローされます。
ggplot は、クラス mixEM のデータを処理する方法を知りません
この問題に対して私が取ることができる他のアプローチはありますか?
c++ - 期待値の最大化のパフォーマンスの向上
ガウス混合モデルのパラメーターを推定するために、C++ で期待値最大化 (EM) を実装しています。
EM の収束が非常に遅い - 対数尤度を高速に収束させる手法はありますか?
probability - 隠された (観測されていない) データとは何ですか? GMM の隠しデータとは何ですか?
EMアルゴリズムとGMMを一緒に勉強しています
ウィキペディアで説明されている EM アルゴリズムを理解していません。
EM アルゴリズムは、方程式を直接解くことができない場合に、統計モデルの最尤パラメーターを見つけるために使用されます。通常、これらのモデルには、未知のパラメーターと既知のデータ観測に加えて、潜在変数が含まれます。
今まで、私はこの文脈における潜在変数に興味を持っていました。
つまり、データに欠損値があるか、観測されていない追加のデータ ポイントが存在すると想定することで、モデルをより簡単に定式化できます。
この文で、欠落したデータまたは観測されていないデータについて簡単な例を挙げていただけますか?
残念ながら、ウィキペディアに例がありますが、私にはこの概念を理解するのが難しく、ガウス混合モデルの隠れたデータに興味があります。
平均と共分散と重み係数は未知のパラメータだと思います。
では、ガウス混合モデルの隠れたデータは何でしょうか?
それとも私の考えが間違っていますか?
c++ - 1 行誇張された実行時間
C++ で OpenCV を使用してプログラムを開発しています。プログラムは正常に動作しています。以下に示したコード行は通常、実行に数ミリ秒かかりますが、同じ行でも 5 秒、10 秒、さらには 50 秒かかることもあります。
何が問題なのか分かりますか?? 入力は通常同じサイズです。
r - Rを使用したパラメータ制限付きEMアルゴリズム
任意のタイプのデータを使用して、私の場合は 3 つのガンマ分布からのデータが混合されています。目標は、すべて 0< で合計が 1 である分布のシータと分布の重みアルファをパラメータ化することです。
負のアルファがない場合、アルファの合計を 1 に制限するにはどうすればよいですか?
machine-learning - scikit Learnでラベル付きデータとラベルなしデータにガウス混合モデルを使用していますか?
ラベルが付けられたデータとラベルが付けられていないデータがあります。期待値最大化アルゴリズムを適用する必要があります。Sci-kit Learnに適用することは可能ですか? ラベル付き + ラベルなしのインスタンスの例は役に立ちます。