数百列のデータセットがあります。メーリングリストのデータが含まれており、いくつかの列は互いに完全に重複しているように見えますが、形式が異なります。
例えば:
rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH
... ... ... ...
重複するデータを削除し、可能であれば数値列だけを残して、1つの列だけに同じ情報が含まれるようにします。したがって、上記の例は次のようになります。
rowNum StateCode
1 01
2 01
3 03
4 03
5 03
6 44
7 44
8 44
... ...
使用してみましcor()
たが、これは数値変数に対してのみ機能します。私は試しましcaret::nearZeroVar()
たが、これは列自体でのみ機能します。
非数値データを含む完全に相関する列を見つけるための提案はありますか?
ありがとう。