r - Rの時間間隔によるデータセットの分割

Question

時間ごとの観測データがあります。このデータを日または週の間隔でサブセット化しようとしています。でこのタスクを続行する方法がわかりませんR。

データのサンプルは以下のとおりです。

date                                 obs
2011-10-24 01:00:00                  12
2011-10-24 02:00:00                  4
2011-10-24 19:00:00                  18
2011-10-24 20:00:00                  7
2011-10-24 21:00:00                  4
2011-10-24 22:00:00                  2
2011-10-25 00:00:00                  4
2011-10-25 01:00:00                  2
2011-10-25 02:00:00                  2
2011-10-25 15:00:00                  12
2011-10-25 18:00:00                  2
2011-10-25 19:00:00                  3
2011-10-25 21:00:00                  2
2011-10-25 23:00:00                  9
2011-10-26 00:00:00                  13
2011-10-26 01:00:00                  11

score 2 · Accepted Answer

まず、複数のスペースをタブに置き換えてデータを入力しました。

dat$date <- as.POSIXct(dat$date, format="%Y-%m-%d %H:%M:%S")
split(dat , as.POSIXlt(dat$date)$yday)
# Notice these are not the same functions
#---------------------
$`296`
                 date obs
1 2011-10-24 01:00:00  12
2 2011-10-24 02:00:00   4
3 2011-10-24 19:00:00  18
4 2011-10-24 20:00:00   7
5 2011-10-24 21:00:00   4
6 2011-10-24 22:00:00   2

$`297`
                  date obs
7  2011-10-25 00:00:00   4
8  2011-10-25 01:00:00   2
9  2011-10-25 02:00:00   2
10 2011-10-25 15:00:00  12
11 2011-10-25 18:00:00   2
12 2011-10-25 19:00:00   3
13 2011-10-25 21:00:00   2
14 2011-10-25 23:00:00   9

$`298`
                  date obs
15 2011-10-26 00:00:00  13
16 2011-10-26 01:00:00  11

POSIXltクラスはデータフレーム内ではうまく機能しませんが、時間ベースのグループを作成するのに非常に便利です。これは、次のインデックスを持つリスト構造です：'yday'、'wday'、'year'、'mon'、'mday'、'hour'、'min'、'sec'、および'isdt'。このcut.POSIXt関数は、他の自然な境界に分割を追加します。例えば

?cut.POSIXt
  split(dat , cut(dat$date, "week") )

日付内に合計したい場合：

tapply(dat$obs, as.POSIXlt(dat$date)$yday, sum)
#-------
296 297 298 
 47  36  24

score 2 · Accepted Answer

次のような時系列クラスを使用しますxts

dat <- read.table(text="2011-10-24 01:00:00                  12
2011-10-24 02:00:00                  4
2011-10-24 19:00:00                  18
2011-10-24 20:00:00                  7
2011-10-24 21:00:00                  4
2011-10-24 22:00:00                  2
2011-10-25 00:00:00                  4
2011-10-25 01:00:00                  2
2011-10-25 02:00:00                  2
2011-10-25 15:00:00                  12
2011-10-25 18:00:00                  2
2011-10-25 19:00:00                  3
2011-10-25 21:00:00                  2
2011-10-25 23:00:00                  9
2011-10-26 00:00:00                  13
2011-10-26 01:00:00                  11", header=FALSE, stringsAsFactors=FALSE)

xobj <- xts(dat[, 3], as.POSIXct(paste(dat[, 1], dat[, 2])))

xtsサブセット化は非常に直感的です。「2011-10-25」のすべてのデータについて、これを行います

xobj["2011-10-25"]
#                    [,1]
#2011-10-25 00:00:00    4
#2011-10-25 01:00:00    2
#2011-10-25 02:00:00    2
#2011-10-25 15:00:00   12
#2011-10-25 18:00:00    2
#2011-10-25 19:00:00    3
#2011-10-25 21:00:00    2
#2011-10-25 23:00:00    9

このように期間をサブセット化することもできます（2011-10-24と2011-10-25の間のすべてのデータ）

xobj["2011-10-24/2011-10-25"]

または、2011年10月のすべてのデータが必要な場合は、

xobj["2011-10"]

19:00から20:00までの任意の日からすべてのデータを取得する場合は、

xobj['T19:00:00/T20:00:00']
#                    [,1]
#2011-10-24 19:00:00   18
#2011-10-24 20:00:00    7
#2011-10-25 19:00:00    3

この関数を使用して、endpoints期間（ "時間"、 "日"、 "週"など）の最後の行である行を検索できます。

endpoints(xobj, "days")
[1]  0  6 14 16

または、より低い周波数に変換することができます

to.weekly(xobj)
#           xobj.Open xobj.High xobj.Low xobj.Close
#2011-10-26        12        18        2         11
to.daily(xobj)
#           xobj.Open xobj.High xobj.Low xobj.Close
#2011-10-25        12        18        2          2
#2011-10-26         4        12        2          9
#2011-10-26        13        13       11         11

上記は、Open、High、Low、およびCloseの列を作成することに注意してください。エンドポイントのデータのみが必要な場合は、次を使用できますOHLC=FALSE

to.daily(xobj, OHLC=FALSE)
#           [,1]
#2011-10-25    2
#2011-10-26    9
#2011-10-26   11

より基本的なサブセット化などについては、http： //www.quantmod.com/examples/にアクセスしてください。

@JoshuaUlrichがコメントで言及しているように、信じられないほどsplit.xts便利です。

日（または週、月など）で分割し、関数を適用してから再結合することができます

split(xobj, 'days') #create a list where each element is the data for a different day
#[[1]]
#                    [,1]
#2011-10-24 01:00:00   12
#2011-10-24 02:00:00    4
#2011-10-24 19:00:00   18
#2011-10-24 20:00:00    7
#2011-10-24 21:00:00    4
#2011-10-24 22:00:00    2
#
#[[2]]
#                    [,1]
#2011-10-25 00:00:00    4
#2011-10-25 01:00:00    2
#2011-10-25 02:00:00    2
#2011-10-25 15:00:00   12
#2011-10-25 18:00:00    2
#2011-10-25 19:00:00    3
#2011-10-25 21:00:00    2
#2011-10-25 23:00:00    9
#
#[[3]]
#                    [,1]
#2011-10-26 00:00:00   13
#2011-10-26 01:00:00   11

毎日の最初の値だけが必要だとします。 split日によってlapply、first機能とrbind一緒に戻ります。

do.call(rbind, lapply(split(xobj, 'days'), first))
#                    [,1]
#2011-10-24 01:00:00   12
#2011-10-25 00:00:00    4
#2011-10-26 00:00:00   13

r - Rの時間間隔によるデータセットの分割

2 に答える 2

Related

Reference