2 つのデータセット (A & B) があります。それぞれ1000個の数字を持っています。
99%の確率: A < 5 <= B
ただし、B < 5 < A の確率は 1% です。
分割点が不明な場合 - x
- 特定のデータセットでどのように決定できx
ますか?
明らかにMax(A)
、Min(B)
誤解を招くものです。また、範囲全体 (または Min(B) と Max(A) の間だけでも) をループして、最も可能性の高い分割点を推測して特定することは避けたいと思います。
Sample Dataset
A 1
A 1
A 1
A 2
B 2 <--anomoly
A 3
A 3
A 3
A 4
A 5 <--anomoly
B 5 <--division, or `x`
B 5
B 5
B 5
A 6 <--anomoly
B 7
B 8
B 8
B 8
B 9
B 9
B 10
B 10
データセットの別のペアが存在すると仮定します (C & D)。異常の特定のしきい値を考慮した後、C が D になるポイントを見つけるにはどうすればよいですか。
おすすめは何ですか?
これが大まかな「推測」戦略です。「推測」ループなしで同じことをしたいと思います。
$maxProbable = 0;
$pointOfDivision = 0;
for ($i = Min($b); $i <= Max($a); $i++) {
// get probability $i is in_array($a)
$countBelow = below($i,$a); // assume function returns count of $a items below $i
$countAbove = above($i,$b); // assume function returns count of $b items above $i
$probBelow = $countBelow/count($a);
$probAbove = $countAbove/count($b);
if (($probBelow+$probAbove) > $maxProbable) {
$maxProbable = $probBelow+$probAbove;
$pointOfDivision = $i;
}
}
echo $pointOfDivision;