statistics - 誤った値を統計的に除去する

Question

ユーザーが終日価格を入力するアプリケーションがあります。これらの価格はタイムスタンプ付きのテーブルに記録され、価格がどのように変化したかを示すチャートを作成するために使用されます... 時々、ユーザーは価格を間違って入力します (例: 0 を多すぎたり少なすぎたりする)。チャートを台無しにします (大きなスパイクが発生します)。価格が 20% 以上変動した場合は追加の確認ダイアログを入れましたが、間違った値を入力しても問題ありません...

他の値と大きく異なる値を除外するために値をグラフ化する前に、値を分析するために使用できる統計的手法は何ですか?

編集：骨に肉を追加します。価格が株価であるとします (そうではありませんが、同じように動作します)。日中に価格が大幅に上下する可能性があります。平均して 1 日あたり約 150 の価格を記録しますが、1 つまたは 2 つの価格が間違っていることもあります。それ以外の場合は、すべて良いです...

score 1 · Accepted Answer

これは素晴らしい質問ですが、答えは非常に多様である可能性があるため、かなりの議論につながる可能性があります。による

これにどれだけの努力を払うつもりですか？
いくつかの答えは、+ /-20％またはあなたが発明したテストによって本当に異なる可能性がありますか？それで、人間の介入が常に必要になるのでしょうか？
関連するテストを発明するには、主題についてもっと知る必要があります。

そうは言っても、以下は可能な代替案です。

以前の値（または以前の10または20の値の平均/最頻値）に対する簡単なテストを実装するのは簡単です
次のレベルの複雑さには、すべての値（または以前のx値、または過去3か月の値）の統計的測定が含まれます。正規分布またはガウス分布により、各値に間違いであるかどうかの確実性を与えることができます。対正確。この確実性の程度は、通常、パーセンテージで表されます。

http://en.wikipedia.org/wiki/Normal_distributionおよびhttp://en.wikipedia.org/wiki/Gaussian_functionを参照してください。これらのページには、使用している言語にもよりますが、これらのプログラミングに役立つ適切なリンクがあります。これを支援するために利用可能な関数やプラグインがある可能性があります

より高度な方法は、たとえば、（最後のx値に加えて）他のパラメーターを考慮に入れることができるある種の学習アルゴリズムを持つことです。学習アルゴリズムは、たとえば、製品タイプまたは製造元を考慮に入れることができます。または、時刻や図を入力したユーザーを監視することもできます。このオプションは、必要なものをはるかに超えているように見えますが、コードを記述したり、学習アルゴリズムをトレーニングしたりするには、多くの作業が必要になります。

私は2番目のオプションがあなたにとって正しいものだと思います。標準偏差（多くの言語にはこのための関数が含まれています）を使用する方が簡単な代替手段かもしれません。これは、値がx個の前の値の平均からどれだけ逸脱しているかの尺度です。標準偏差オプションをその間のどこかに置きます。オプション1および2

score 1 · Accepted Answer

しばらくの間、標準偏差を計算して追跡します。適切なバックログが得られたら、平均値から標準偏差がいくつ離れているかを確認することで、外れ値を無視できます。さらに良いことに、時間があれば、この情報を使用して単純なベイジアン分類を行うことができます。

score 0 · Accepted Answer

0

または、実際の価格の代わりに価格の移動平均をグラフ化します。

于 2008-09-18T09:51:19.083 に答える

score 0 · Accepted Answer

ここから引用：

統計学者は、外れ値を検出するためのいくつかの方法を考案しました。すべての方法は、最初に外れ値が他の値からどれだけ離れているかを定量化します。これは、外れ値とすべてのポイントの平均との差、外れ値と残りの値の平均との差、または外れ値と次に近い値との差になります。次に、すべての値の SD、残りの値の SD、またはデータの範囲など、何らかの散布尺度で除算して、この値を標準化します。最後に、次の質問に答える P 値を計算します。すべての値が実際にガウス母集団からサンプリングされた場合、他の値から遠く離れた外れ値をランダムに取得する可能性はどれくらいですか? P 値が小さい場合、外れ値の他の値からの偏差は統計的に有意であると結論付けます。

Google はあなたの友達です。;)

score 0 · Accepted Answer

既存の母集団の標準偏差を測定し、標準偏差が 1 または 2 より大きいものを平均から除外できますか?

より正確な答えを出すには、データがどのように見えるかによって異なります...

score 0 · Accepted Answer

プロットに関する特定の質問、および 1 日あたり平均 150 回のうち 1 ～ 2 回のエラーという特定のシナリオの場合、最も簡単な方法は、トリミングされた平均値、または値の中央 95% の範囲、またはそのようなものをプロットすることです。 . それは、プロットからどのような値が必要かによって異なります。

1 日の価格の真の最大値と真値に本当に関心がある場合は、外れ値を外れ値として処理し、おそらく以前に提案された外れ値テストの 1 つを使用して、それらを適切に除外する必要があります (データポイントは次の値より x% 高いポイント、または最後の n ポイント、または毎日の平均から 5 標準偏差以上離れている)。もう 1 つの方法は、外れ値の後に何が起こるかを確認することです。それが外れ値である場合、急激な上昇の後に急激な下降が続きます。

ただし、全体的な傾向が気になる場合は、毎日のトリム平均、中央値、5% および 95% のパーセンタイルをプロットすると、履歴がうまく表現されます。

分析の質問に基づいて、表示方法と、必要な外れ値検出の程度を選択します。中央値やパーセンタイルが気になる場合は、おそらく無関係です。

statistics - 誤った値を統計的に除去する

6 に答える 6

Related

Reference