0

いくつかの統計データがあります。以下に示すように、一部のデータはデータセットの大部分に非常に分散しています。私がやりたいのは、データセット内の非常に分散したデータの影響を最小限に抑えることです。私の場合、散乱データの影響を最小限に抑えたデータセットの平均を計算したいと思います。

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

下の図に示すように: 以下のように1つのデータが散在しています(例)

46.3ではなく、他のデータ分布に近い平均値が必要です。実際、平均計算では89.23と328.42の影響を最小限に抑えたいと思います。前もって感謝します

4

2 に答える 2

2

あなたは本当に平均を望んでいないことに気付くかもしれません。ここでの問題は、データに対して想定した分布が実際のデータと異なることです。このデータに正規分布を当てはめようとすると、悪い結果が得られます。コーシーのような裾の重い分布をこのデータに当てはめることができます。正規分布を使用する場合は、非正規サンプルを除外する必要があります。標準偏差がどうあるべきかを知っていると思われる場合は、上記のサンプルからすべてを削除して、平均から標準偏差を 3 離すことができます (数値 3 はサンプル サイズに依存する必要があります)。このプロセスを再帰的に実行して、標準偏差に関して外れ値のサイズに満足するまで、非正規サンプルを削除できます。

于 2012-08-15T15:34:26.173 に答える
2

残念ながら、一連のデータの平均は、平均値です。ポイントが実際に外れ値であると確信していますか? あなたのデータには、クラスタリングに関して単一の外れ値のように見えるものが含まれていますが、プロットを見ると、このデータには線形関係があるように見えるので、本当に外れ値でしょうか?

この読み取り値が本当に問題を引き起こしている場合は、完全に削除できます。それ以外に私があなたに提案できる唯一のことは、真の平均http://en.wikipedia.org/wiki/Weighted_meanではなく、ある種の加重平均を計算することです。このようにして、平均を計算するときにポイントに低い重みを割り当てることができます (ただし、重みの値を選択する方法は別の問題です)。これは加重回帰に似ており、特定のデータ ポイントの回帰フィッティングに関連する重みが小さくなります (たとえば、特定のポイントの信頼性が低いため) http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)#Weighted_linear_least_squares

これが少し役立つことを願っています。少なくとも、あなたが追求できる他の道へのいくつかの指針を与えてくれることを願っています.

于 2012-08-15T16:09:56.527 に答える