arデータフレームの行を列にアンラップする効率的な方法はありますか? これは、SQL スクリプトから取得したデータを複数の列に展開する必要があるときに、繰り返し発生する問題です。たとえば、rnn がなく、代わりに標準のニューラル ネットワークを使用することを目指している時系列予測の場合です。ネットを繰り返す代わりに、ネットが t-1、t-2、t-3 などの行を受け取るように、事前にデータを平坦化する予定です。以下の派手なペイント ジョブを参照してください。
基本的に、各行について、右側に n 個の前の行を連結します。ここで、n は、現在の行の値を予測するために使用する以前の回数のステップに依存します。
ほとんどの場合、できればrの既存のライブラリ/関数を使用して、スマートで効率的な方法を探しています。いくつかの言語でプログラムできますが、r ソリューションを見つけることを目指しています。私はこれをJavaで(かなり高速でした)、rで(〜forever = 1時間かかりました)実行しました。
現在、3000 行と 10 列を少し超えています。たとえば、前の 15 の時間ステップを使用したい場合は、10+15*10 列になります。15 が適切な選択であるかどうかはわかりません。したがって、n= 5、10、15、20、25、50 などをすばやくテストできる必要があります。
編集
正直なところ、私は r に関しては初心者なので、このためにカスタム関数を再度コーディングする代わりに、助けを求めています。
dput は次のように与えます:
structure(list(Date = structure(c(10L, 9L, 8L, 7L, 6L, 5L, 4L,
3L, 2L, 1L), .Label = c("6/10/2016", "6/13/2016", "6/14/2016",
"6/15/2016", "6/16/2016", "6/17/2016", "6/20/2016", "6/21/2016",
"6/22/2016", "6/23/2016"), class = "factor"), Bid = c(5.04, 4.97,
4.96, 4.93, 4.84, 5.09, 5.05, 4.96, 5.08, 5), Ask = c(5.04, 4.97,
4.96, 4.94, 4.84, 5.09, 5.06, 4.97, 5.08, 5.01), Opening.price = c(4.98,
4.97, 4.95, 4.94, 4.92, 5.01, 5.01, 5.01, 4.95, 5.05), High.price = c(5.07,
4.98, 4.97, 4.99, 4.93, 5.14, 5.06, 5.1, 5.13, 5.09), Low.price = c(4.94,
4.91, 4.89, 4.92, 4.81, 5.01, 4.94, 4.94, 4.89, 4.97), Closing.price = c(5.04,
4.97, 4.95, 4.94, 4.86, 5.08, 5.05, 4.94, 5.06, 4.98), Average.price = c(5.02,
4.96, 4.94, 4.94, 4.87, 5.08, 5.01, 5, 5.01, 5.01), Total.volume = c(18997216L,
17969939L, 21430529L, 20725035L, 66884495L, 32994371L, 24600829L,
24439514L, 26540825L, 24756699L), Turnover = c(95382241.29, 89106913.2,
105823382.96, 102379207.58, 325592595.95, 167697936.93, 123243137.11,
122189815.88, 133063486.77, 124080799.95), Trades = c(9220L,
9317L, 10075L, 10230L, 16446L, 13544L, 11888L, 10923L, 11981L,
9696L)), .Names = c("Date", "Bid", "Ask", "Opening.price", "High.price",
"Low.price", "Closing.price", "Average.price", "Total.volume",
"Turnover", "Trades"), class = "data.frame", row.names = c(NA,
-10L))
n = 2 の場合の結果 (右側に前の 2 つのタイムステップを追加):
structure(list(Date = structure(c(8L, 7L, 6L, 5L, 4L, 3L, 2L,
1L), .Label = c("6/14/2016", "6/15/2016", "6/16/2016", "6/17/2016",
"6/20/2016", "6/21/2016", "6/22/2016", "6/23/2016"), class = "factor"),
Bid = c(5.04, 4.97, 4.96, 4.93, 4.84, 5.09, 5.05, 4.96),
Ask = c(5.04, 4.97, 4.96, 4.94, 4.84, 5.09, 5.06, 4.97),
Opening.price = c(4.98, 4.97, 4.95, 4.94, 4.92, 5.01, 5.01,
5.01), High.price = c(5.07, 4.98, 4.97, 4.99, 4.93, 5.14,
5.06, 5.1), Low.price = c(4.94, 4.91, 4.89, 4.92, 4.81, 5.01,
4.94, 4.94), Closing.price = c(5.04, 4.97, 4.95, 4.94, 4.86,
5.08, 5.05, 4.94), Average.price = c(5.02, 4.96, 4.94, 4.94,
4.87, 5.08, 5.01, 5), Total.volume = c(18997216L, 17969939L,
21430529L, 20725035L, 66884495L, 32994371L, 24600829L, 24439514L
), Turnover = c(95382241.29, 89106913.2, 105823382.96, 102379207.58,
325592595.95, 167697936.93, 123243137.11, 122189815.88),
Trades = c(9220L, 9317L, 10075L, 10230L, 16446L, 13544L,
11888L, 10923L), X1_Bid = c(4.97, 4.96, 4.93, 4.84, 5.09,
5.05, 4.96, 5.08), X1_Ask = c(4.97, 4.96, 4.94, 4.84, 5.09,
5.06, 4.97, 5.08), X1_Opening.price = c(4.97, 4.95, 4.94,
4.92, 5.01, 5.01, 5.01, 4.95), X1_High.price = c(4.98, 4.97,
4.99, 4.93, 5.14, 5.06, 5.1, 5.13), X1_Low.price = c(4.91,
4.89, 4.92, 4.81, 5.01, 4.94, 4.94, 4.89), X1_Closing.price = c(4.97,
4.95, 4.94, 4.86, 5.08, 5.05, 4.94, 5.06), X1_Average.price = c(4.96,
4.94, 4.94, 4.87, 5.08, 5.01, 5, 5.01), X1_Total.volume = c(17969939L,
21430529L, 20725035L, 66884495L, 32994371L, 24600829L, 24439514L,
26540825L), X1_Turnover = c(89106913.2, 105823382.96, 102379207.58,
325592595.95, 167697936.93, 123243137.11, 122189815.88, 133063486.77
), X1_Trades = c(9317L, 10075L, 10230L, 16446L, 13544L, 11888L,
10923L, 11981L), X2_Bid = c(4.96, 4.93, 4.84, 5.09, 5.05,
4.96, 5.08, 5), X2_Ask = c(4.96, 4.94, 4.84, 5.09, 5.06,
4.97, 5.08, 5.01), X2_Opening.price = c(4.95, 4.94, 4.92,
5.01, 5.01, 5.01, 4.95, 5.05), X2_High.price = c(4.97, 4.99,
4.93, 5.14, 5.06, 5.1, 5.13, 5.09), X2_Low.price = c(4.89,
4.92, 4.81, 5.01, 4.94, 4.94, 4.89, 4.97), X2_Closing.price = c(4.95,
4.94, 4.86, 5.08, 5.05, 4.94, 5.06, 4.98), X2_Average.price = c(4.94,
4.94, 4.87, 5.08, 5.01, 5, 5.01, 5.01), X2_Total.volume = c(21430529L,
20725035L, 66884495L, 32994371L, 24600829L, 24439514L, 26540825L,
24756699L), X2_Turnover = c(105823382.96, 102379207.58, 325592595.95,
167697936.93, 123243137.11, 122189815.88, 133063486.77, 124080799.95
), X2_Trades = c(10075L, 10230L, 16446L, 13544L, 11888L,
10923L, 11981L, 9696L)), .Names = c("Date", "Bid", "Ask",
"Opening.price", "High.price", "Low.price", "Closing.price",
"Average.price", "Total.volume", "Turnover", "Trades", "X1_Bid",
"X1_Ask", "X1_Opening.price", "X1_High.price", "X1_Low.price",
"X1_Closing.price", "X1_Average.price", "X1_Total.volume", "X1_Turnover",
"X1_Trades", "X2_Bid", "X2_Ask", "X2_Opening.price", "X2_High.price",
"X2_Low.price", "X2_Closing.price", "X2_Average.price", "X2_Total.volume",
"X2_Turnover", "X2_Trades"), class = "data.frame", row.names = c(NA,
-8L))
編集 2
以前の時点が直接入力された場合の rn と、それらが従来のネットとどのように異なるかについて質問がある人がいます。 rnn vs classic net 質問のパート 1 では、各行について、予測したいデータの右側に x(t-1), x(t-2)... を取得する方法を説明しています。