問題タブ [probability-theory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1883 参照

python - scipy.stats.kde と scipy.stats.kstest

どうすればscipy.stats.kde.gaussian_kdeandscipy.stats.kstestをコンフォーマルな方法で使用できますか?

たとえば、コードは次のとおりです。

次の答えが得られます。 (0.5396735893479544, 0.0)

サンプルは明らかにこのサンプルで構築された分布に属しているため、これは正しくありません。

0 投票する
2 に答える
124 参照

probability-theory - 数学の証明が必要 (確率)

Pr[E] = Pr[E|A].Pr[A] + Pr[E|A'].Pr[A'] より

Pr[E] <= Pr[E|A] + Pr[A'] をどのように証明できますか?

0 投票する
1 に答える
1070 参照

matlab - ガウス混合モデル確率matlab

寸法が 50x100000 のデータがあります。(100000 個のフィーチャ、それぞれのディメンションは 50 です)。

このデータを使用してガウス混合モデルを当てはめたいと思います。次のコードを使用しました。

私が必要とするのは、新しいデータを与えるときに、YI が尤度確率 $p(Y|\theta)$ を取得できるようにすることです。ここで、$\theta$ はガウス混合モデルのパラメーターです。

次のコードを使用して確率値を取得しました。

しかし、私は非常に低い値を取得していますが、すべて約 0 です。適切な確率値を取得するにはどうすればよいですか?

0 投票する
1 に答える
1021 参照

matlab - ガウス混合モデルに基づく外れ値検出

私は一連のデータを持っています。そのデータから 1 つのクラスの分布を構築したいと考えています。学習した分布に基づいて、各データ インスタンスの確率値を取得したいと考えています。この確率値 (しきい値) に基づいて、特定のデータ インスタンスがその分布から来ているかどうかを分類する分類器を構築したいと考えています。

この場合、50x100000 のデータがあるとします。ここで、50 は各データ インスタンスの次元であり、インスタンスの数は 100000 です。この分布に基づいてガウス混合モデルを学習しています。

インスタンスの確率値を取得しようとすると、非常に低い値が得られます。この場合、どうすれば分類子を構築できますか?

0 投票する
4 に答える
821 参照

matlab - エントロピー計算をベクトル化するにはどうすればよいですか?

すべての列のエントロピーを計算しようとしましたが、行列は次のようになります。

すべての列の合計は 1 になりますが、マトリックスにはいくつかのゼロがあるため、log2(arr(i,:)) だけでは、結果に -Inf が含まれるため、すべてが機能しません
実際には私は巨大な行列を持っているので、プログラムを高速に実行したいのですが、回避策はありますか?
これが私の解決策です。 p .* log2(p) と同じくらい速く動作しますか?

0 投票する
1 に答える
26 参照

multithreading - 同じワーカーが合計 Y タスクのうち X タスクを取得する可能性 (Z ワーカーのプール内)

これは基本的に確率論の質問ですが、私はとてもさびているので、どこから始めればいいのか頭が回らないようです。

Z ワーカーのプールがあります。各ワーカーには、リサイクルされる前に実行する必要があるタスク数の制限 X があります。新しいタスクはそれぞれ、ワーカーによってランダムに取得されます (1/Zワーカーが取得する可能性があります)。

Y 個のタスクが与えられた後、1 人のワーカーが X のしきい値に到達する確率は?

定期的に「クリーンアップ」を実行する必要があるため、計算したいと思います。ランダムに数字を選ぶのではなく、ワーカーの数とそのタスクの制限に関連付けたいと思います (後で微調整する可能性があります)。 )、したがって、25-30-35% の確率で 1 つのワーカーが処理されたら、クリーンアップを行います。

0 投票する
1 に答える
127 参照

algorithm - 適切なテキストを生成する方法は?

私がやりたいことは、テキスト トレーニング セット (自然言語) を取得し、テキスト コンテンツを模倣しようとする自動的に作成されたテキストでこのセットを増やすことです。私は単語の袋の仮定を使用しています。順序は問題ではなく、構文は問題ではありません。ベースの一般的なトピックに関連する単語を含むテキストを作成したいだけです。

現在、潜在的ディリクレ配分法を使用して、ドキュメントをトピック分布に分類し、セットのトピック分布を平均化し、これらのトピック分布からドキュメントを生成しています。

私は2つのことを知りたいです:

1-それを行うためのより良い方法はありますか?

2-トピックを汚染することなく、セットのドメインではないテキストで LDA をトレーニングできますか。増やしたいセットは、政治に関するテキストです。任意の種類のテキスト (車、ファッション、音楽) でモデルをトレーニングし、政治テキストのベースを分類してトピック分布を取得し、この分布から同様のテキストを生成できますか?

私はpython 2.7とgensimを使用しています。