0

1000 行を超えるデータ セットと 20 個の属性 (列に表示) があります。各値から平均を引いて平均を 0 にすることを含む、平均センタリングを使用したいと考えています。属性ごとに平均を削除しますか、それともすべての属性の平均をそれぞれから削除しますか?

たとえば、属性 A の平均が 500 で、属性 B の平均が 1,000 であるとします。AI のすべての値について、500 を削除すると、A 属性の平均が 0 になります。次に、属性 B についても同じことができます。

また

両方の属性のすべての値を 750 引き下げることができました。

統計的に正しいのはどれ?

私の質問はこれによるものです。異なる属性から異なる値を差し引くと、それぞれから異なる量が取られているため、属性は比較できなくなります。すべてから同じ値を差し引くと、一部の列が負の数値だけでいっぱいになる可能性があります (したがって、平均センタリングの効果が無効になります)。

ありがとう、

4

1 に答える 1

3

通常、各属性を個別に中央に配置します。
各属性を個別に中央に配置すると、個人にとって重要なのは、各測定値がその属性の平均とどのように異なるかであると想定され、その個人の属性の絶対比較が失われます。
たとえば、人の身長、体重があり、それらを別々にセンタリングした場合、「平均より背が高い人については、体重も平均体重よりも大きいですか」と尋ねることができます。身長と体重を一緒に平均しても意味がありません。
これについて考える 1 つの方法は、平均的な個人を作成していることです。これは、すべての観察に対するベンチマークとして使用できます。
製品の価格とコストなど、2 つのメジャーの絶対値が比較可能である場合、それらがシフトされるため、それらを比較することはできなくなります。個々の観測値の絶対比較を使用する測定に関心がある場合は、たとえば %profit などの補助メトリックを作成する必要があります。その場合、中心値を使用すると、「価格が高い製品は平均よりも収益性が高いか」を尋ねることができます。

于 2012-05-12T21:34:41.763 に答える