algorithm - 最適なバケットサイズとバケット数

Question

申し訳ありませんが、この投稿はコーディングには関係ありませんが、データ構造とアルゴリズムに関連しています。それぞれ異なる周波数を持つ大量のデータがあります。おおよその図のプロットは、ベル曲線のようです。ここで、範囲の頻度を最も正確に表す範囲内のデータを表示したいと考えています。たとえば、データの範囲全体には合計数があります。ただし、この範囲またはバケットサイズは正確ではなく、より正確になる可能性があります。(たとえば、一部のデータが特定の周波数ゾーンにより集中している場合、データサイズは小さくても、より密接に関連する周波数を持つバケットを構築できます。)
いくつかのアルゴリズムに関するヘルプ。二分探索に関するアルゴリズムを考えてみました。どんなアイデアでも。

score 4 · Accepted Answer

私がフォローしているかどうかはわかりませんが、kBean を探しているようです。2 つの Bean ごとに、データが 1 つの Bean に含まれる確率は、もう 1 つの Bean に含まれる確率と同じです。

あなたの説明から、データは正規分布またはT 分布のようです。

データの平均と標準偏差を評価できます。抽出された SDsを、平均をとしますu。

サンプルから平均値と SD を評価するための標準式は¹です。

u = (x1 + x2 + ... + xn) / n (simple average)
s^2 = Sigma((xi - u)^2)/(n-1)

この情報があれば、データの分布を評価できますN(u,s^2)。この情報があれば、ランダム変数を作成できます: X~N(u,s^2)²

あとは、次のように a、b、... を見つけるだけです (10 個のバケットを想定すると、これは明らかに必要に応じて変更できます)。

P(X<a) = 0.1
P(X<b) = 0.2
P(X<c) = 0.3
...

a、b、c、...を見つけた後、あなたはあなたの豆を持っています：（-infinity、a]、（a、b]、（a、c]、...

(1) 分散の評価: http://en.wikipedia.org/wiki/Variance#Population_variance_and_sample_variance
(2) この変数の実際の分布は実際には t 分布です。分散は未知であり、データから抽出されるためです。ただし、十分に大きい場合、nt 分布は正規分布に減衰します。

score -1 · Accepted Answer

最初にすべてのインデックスを数えてから、繰り返し値を差し引きます。これにより、最適なバケット数が得られます。でも小さいレベルで

algorithm - 最適なバケットサイズとバケット数

2 に答える 2

Related

Reference