r - データフレームを行ごとに分割し、ブロックを処理する方法は?

Question

いくつかの列を持つデータフレームがあり、そのうちの 1 つは「サイト」と呼ばれる要素です。データフレームを「サイト」という一意の値を持つ行のブロックに分割し、各ブロックを関数で処理するにはどうすればよいですか? データは次のようになります。

site year peak
ALBEN 5 101529.6
ALBEN 10 117483.4
ALBEN 20 132960.9
ALBEN 50 153251.2
ALBEN 100 168647.8
ALBEN 200 184153.6
ALBEN 500 204866.5
ALDER 5 6561.3
ALDER 10 7897.1
ALDER 20 9208.1
ALDER 50 10949.3
ALDER 100 12287.6
ALDER 200 13650.2
ALDER 500 15493.6
AMERI 5 43656.5
AMERI 10 51475.3
AMERI 20 58854.4
AMERI 50 68233.3
AMERI 100 75135.9
AMERI 200 81908.3

各サイトのyearvsのプロットを作成したいと思います。peak

score 14 · Accepted Answer

isplit(「イテレータ」パッケージから) を使用して、列で定義されたブロックをループするイテレータオブジェクトを作成できますsite。

require(iterators)
site.data <- read.table("isplit-data.txt",header=T) 
sites <- isplit(site.data,site.data$site)

次にforeach、(「foreach」パッケージから) を使用して、各ブロック内にプロットを作成できます。

require(foreach)
foreach(site=sites) %dopar% {
 pdf(paste(site$key[[1]],".pdf",sep=""))
 plot(site$value$year,site$value$peak,main=site$key[[1]])
 dev.off()
}

おまけとして、マルチプロセッサマシンがあり、registerDoMC()最初に (「doMC」パッケージから) 呼び出すと、ループが並列に実行され、速度が向上します。詳細については、Revolutions のブログ記事を参照してください: isplit を使用したデータフレームのブロック処理

score 12 · Accepted Answer

もう1つの選択肢は、ライブラリのddply関数を使用することです。ggplot2しかし、あなたは主にピーク対年のプロットをしたいと言っているので、あなたはただ使うこともできますqplot：

A <- read.table("example.txt",header=TRUE)
library(ggplot2)
qplot(peak,year,data=A,colour=site,geom="line",group=site)
ggsave("peak-year-comparison.png")

一方、関数の適用を複数のプロセッサで実行できるようにするDavidSmithのソリューションは気に入っています。

score 10 · Accepted Answer

普通の古いsplit()ものにはdata.framesのメソッドがあるためsplit(data,data$site)、ブロックのリストが生成されることを思い出したようです。sapply/ lapply/を使用して、このリストを操作できますfor。

split()これはunsplit()、元のデータと同じ長さのベクトルを正しい順序で作成します。

score 6 · Accepted Answer

ライブラリ関数で処理しているように見えますが、これが私が行うことです。

for(i in 1:length(unique(data$site))){
  constrainedData = data[data$site==data$site[i]];
  doSomething(constrainedData);
}

この種のコードはより直接的であり、効率が悪いかもしれませんが、同じことのために新しいライブラリ関数を学ぶよりも、コードが何をしているのかを読むことができる方が好きです。これもより柔軟に感じさせますが、正直なところ、これは私が初心者として理解した方法です。

score 4 · Accepted Answer

この種の状況に対処するための便利な組み込み関数が 2 つあります。?aggregate および ?by. この場合、プロットが必要でスカラーを返さないため、 by() を使用します

data <- read.table("example.txt",header=TRUE)

by(data[, c('year', 'peak')], data$site, plot)

出力はNULL、それが plot が返すものであるためです。グラフィックスデバイスを pdf に設定して、すべての出力をキャプチャすることができます。

score 2 · Accepted Answer

また、lattice パッケージを使用してプロットを生成するのも非常に簡単です。

library(lattice)
xyplot(year~peak | site, data)

score 0 · Accepted Answer

splitデータを次のように開いた場合、関数を使用できます。

data <- read.table('your_data.txt', header=T)
blocks <- split(data, data$site)

その後、ブロックには、他の data.frame としてアクセスできる各ブロックからのデータが含まれます。

plot(blocks$ALBEN$year, blocks$ALBEN$peak)

など、各プロットについて。

r - データ フレームを行ごとに分割し、ブロックを処理する方法は?

7 に答える 7

Related

Reference

r - データフレームを行ごとに分割し、ブロックを処理する方法は?