r - data.table 内のあいまいな列名の処理

Question

ExcelファイルからRのdata.tableにデータを読み込んでいます.ファイルは次のようにフォーマットされています:

   COL_1_STUFF COL_2_STUFF COL_3_STUFF
ID EST MOE PCT EST MOE PCT EST MOE PCT

つまり、変数 ( COLs) ごとに、推定値、誤差範囲、パーセンテージが示されます。

read.xlsx2問題は、次のようにファイルをインポートするために使用しているによって作成されています。

data <- as.data.table(read.xlsx2(
  "file.xlsx", sheetIndex = 1L, colIndex = c(1L, 4L, 7L), startRow = 2L))

問題はread.xlsx2、同じ列名を一連のものに割り当てることです。インポートは次のようになります。

ID EST EST EST

を設定header = FALSEしても、次のようなものが得られがちです

X1 X2 X2 X2

これを回避するために、インポート後に次のことを行いました。

data[ , c("col1_est", "EST") := .(EST, NULL)]
data[ , c("col2_est", "EST") := .(EST, NULL)]
data[ , c("col3_est", "EST") := .(EST, NULL)]

これは、この問題に対処する奇妙な方法だと思います。誰かがこれに対する別のアプローチを提案できますか?

score 3 · Accepted Answer

これは、、、およびへのcheck.names引数を使用して実行できます。freaddata.tablesetDT

DT <- read.xlsx2(
  "file.xlsx", sheetIndex = 1L, colIndex = c(1L, 4L, 7L), startRow = 2L)
)
setDT(DT, check.names = TRUE)

重複する列名に、などを.1自動的に追加します。.2

1 に答える 1