1000 行を超えるデータ セットと 20 個の属性 (列に表示) があります。各値から平均を引いて平均を 0 にすることを含む、平均センタリングを使用したいと考えています。属性ごとに平均を削除しますか、それともすべての属性の平均をそれぞれから削除しますか?
たとえば、属性 A の平均が 500 で、属性 B の平均が 1,000 であるとします。AI のすべての値について、500 を削除すると、A 属性の平均が 0 になります。次に、属性 B についても同じことができます。
また
両方の属性のすべての値を 750 引き下げることができました。
統計的に正しいのはどれ?
私の質問はこれによるものです。異なる属性から異なる値を差し引くと、それぞれから異なる量が取られているため、属性は比較できなくなります。すべてから同じ値を差し引くと、一部の列が負の数値だけでいっぱいになる可能性があります (したがって、平均センタリングの効果が無効になります)。
ありがとう、