r - データフレームをピボット/アンピボット (キャスト/メルト) する方法は?

Question

テーブルを「アンピボット」するにはどうすればよいですか? これを表す適切な専門用語は何ですか?

更新: この用語はメルトと呼ばれます

国と各年のデータのデータフレームがあります

Country     2001    2002    2003
Nigeria     1       2       3
UK          2       NA       1

そして、私は次のようなものが欲しい

Country    Year    Value
Nigeria    2001    1
Nigeria    2002    2
Nigeria    2003    3
UK         2001    2
UK         2002    NA
UK         2003    1

score 24 · Accepted Answer

答えでアンドリーを倒したなんて、いまだに信じられない。:)

> library(reshape)
> my.df <- read.table(text = "Country     2001    2002    2003
   + Nigeria     1       2       3
   + UK          2       NA       1", header = TRUE)
> my.result <- melt(my.df, id = c("Country"))
> my.result[order(my.result$Country),]
     Country variable value
   1 Nigeria    X2001     1
   3 Nigeria    X2002     2
   5 Nigeria    X2003     3
   2      UK    X2001     2
   4      UK    X2002    NA
   6      UK    X2003     1

score 5 · Accepted Answer

この問題に対するベース R のreshapeアプローチは、特に名前がreshape好きな形式ではないため、かなり醜いです。次のようになります。最初のsetNames行は、列名をreshape利用できるものに変更します。

reshape(
  setNames(mydf, c("Country", paste0("val.", c(2001, 2002, 2003)))), 
  direction = "long", idvar = "Country", varying = 2:ncol(mydf), 
  sep = ".", new.row.names = seq_len(prod(dim(mydf[-1]))))

ベース R でのより良い代替手段はstack、次のようにを使用することです。

cbind(mydf[1], stack(mydf[-1]))
#   Country values  ind
# 1 Nigeria      1 2001
# 2      UK      2 2001
# 3 Nigeria      2 2002
# 4      UK     NA 2002
# 5 Nigeria      3 2003
# 6      UK      1 2003

「tidyr」パッケージなど、データを再形成するための新しいツールも利用できるようになりましたgather。もちろん、このtidyr:::gather_.data.frameメソッドはを呼び出すだけreshape2::meltなので、Hadleyverse で遭遇する可能性のある新しい構文を紹介することを除いて、私の回答のこの部分は必ずしも多くを追加するわけではありません。

library(tidyr)
gather(mydf, year, value, `2001`:`2003`) ## Note the backticks
#   Country year value
# 1 Nigeria 2001     1
# 2      UK 2001     2
# 3 Nigeria 2002     2
# 4      UK 2002    NA
# 5 Nigeria 2003     3
# 6      UK 2003     1

質問で示した行の順序が必要な場合は、ここでの 3 つのオプションすべてで行の並べ替えが必要になります。

4 番目のオプションはmerged.stack、私の「splitstackshape」パッケージから使用することです。ベース R のreshapeように、列名を「変数」および「時間」インジケーターを含む名前に変更する必要があります。

library(splitstackshape)
merged.stack(
  setNames(mydf, c("Country", paste0("V.", 2001:2003))),
  var.stubs = "V", sep = ".")
#    Country .time_1  V
# 1: Nigeria    2001  1
# 2: Nigeria    2002  2
# 3: Nigeria    2003  3
# 4:      UK    2001  2
# 5:      UK    2002 NA
# 6:      UK    2003  1

サンプルデータ

 mydf <- structure(list(Country = c("Nigeria", "UK"), `2001` = 1:2, `2002` = c(2L, 
     NA), `2003` = c(3L, 1L)), .Names = c("Country", "2001", "2002",               
     "2003"), row.names = 1:2, class = "data.frame")

score 1 · Accepted Answer

パッケージのmeltコマンドを使用できます。reshapeここを参照してください: http://www.statmethods.net/management/reshape.html

おそらく次のようなものmelt(myframe, id=c('Country'))

r - データフレームをピボット/アンピボット (キャスト/メルト) する方法は?

3 に答える 3

サンプルデータ

Related

Reference