0

これは私のデータです:

a       b       c     d         e           f           g
<dbl>   <dbl>   <dbl> <dbl>     <dbl>       <dbl>       <dbl>
14.6    74529   720   4639.341  10039.323   0.3089194   0.00011135818
270.0   74529   720   4639.341  10039.323   0.3089194   0.00011135818
14.6    74529   720   4639.341  10039.323   0.3089194   0.00011135818
390.0   74529   720   4639.341  10039.323   0.3089194   0.00011135818
2000.0  74529   720   4639.341  10039.323   0.3089194   0.00011135818
2452.0  74529   720   4639.341  10039.323   0.3089194   0.00011135818
10315.0 74529   720   4639.341  10039.323   0.3089194   0.00011135818
190.6   74529   720   4639.341  10039.323   0.3089194   0.00011135818
1050.0  74529   720   4639.341  10039.323   0.3089194   0.00011135818
14.6    74529   720   4639.341  10039.323   0.3089194   0.00011135818
...

他の変数に加算を実行して新しい変数を作成したいとしましょう。ただし、変数は同等のスケールではないため、再スケーリングする必要があります。変数の分布は正規ではなく、正規化プロセスも外れ値に対して堅牢である必要があります。変数を合計してデータの新しいパラメーターを作成できるように、データを正規化する最良の方法は何ですか?

4

1 に答える 1

-1

を使用しscale(x)ます。外れ値を処理するには、特定のしきい値を超えるスケーリングされた値を破棄します。たとえば、which(abs(scale(x))>3)平均から 3 sd より離れたデータを指摘します。

すべての列に対してこれを行い、続行する前にすべての列から破棄されるすべての外れ値の和集合を形成します。

于 2020-08-10T11:18:33.570 に答える