これは一種のきちんとした問題であり、私はそれを考えるのを楽しんでいました...
「ウィジェット レンタル」Web サイトを運営していて、アプリケーション上で、将来の購入者が価格に基づいてウィジェットを並べ替えられるようにしたいとします。(低から高または高から低)。
各ウィジェットは、時期によって価格が異なる場合があります。一部のウィジェットには、「ハイ」シーズンと「ロー」シーズンがあるため、シーズンによって数十の異なる価格が設定されます。
しかし、「ウィジェット」の売り手は特にやんちゃで、ウィジェットを 1 年のうち 1 日だけ非常に高く、1 年のうち 1 日を非常に安く設定すると、簡単に低ソート範囲と高ソート範囲。
現在、ウィジェットの「最低価格」を計算するために、データセットから値を取得するという非常に単純なソリューションを採用しましたlowest( N )
。
私がしたいのは、ウィジェットの「最低価格」を取得することです。これは、レンタル可能な価格を正確に描写し、低/高帯域の外れ値を削除します。
このグラフを見てください...値とともに...
X 軸 - 時間 (それぞれの重要な間隔は 1 日です)
Y 軸 - 価格
X 軸は時間、Y 軸は価格です。現在、これには正規分布が含まれており、そのデータセットには実際の統計的外れ値はありません。価格が最低値と最高値の間で 200% 変動することはよくあることです。
ただし、この 2 番目のチャートを見てください...これには 1 日料金が含まれており、わずか 20 ユーロです...
Grubbs テストを使用して遊んでみましたが、非常にうまく機能しているようです。
重要なことは、「価格から」取得したいということです。つまり、「このウィジェットはXXXXからレンタルできます」と言えるようになりたいのです。そのため、全体として採用された全体的な価格設定を反映し、明確な異常値を無視する必要があります。
すでに存在するものの方向性を教えていただければ、PHP ボーナス ポイントです。(しかし、これを自分で PHP でコーディングできることをうれしく思います)。