r - R計算を高速化するためのアクション

Question

私はこれを、R私が使用していたパッケージに固有のものではなく、についての一般的な/初心者の質問として尋ねています。

私はdataframe300万行15列のを持っています。私はこれを巨大なデータフレームとは考えていませんが、おそらく私は間違っています。

私は次のスクリプトを実行していて、それは2時間以上実行されています-これをスピードアップするために私ができることがあるに違いないと思います。

コード：

ddply(orders, .(ClientID), NumOrders=len(OrderID))

これは過度に集中的なスクリプトではありません。また、そうではないと思います。

データベースでは、テーブルにインデックスを追加して、結合速度を上げることができます。R関数/パッケージをより高速に実行するためにインポートで実行する必要がある同様のアクションはありますか？

score 3 · Accepted Answer

あなたが望むかもしれないと私には見えます：

orders$NumOrders <- with( orders( ave(OrderID  , ClientID) , FUN=length) )

（len（）関数が存在することを知りません。）

score 2 · Accepted Answer

提案されたdata.tableパッケージを使用すると、次の操作で1秒以内に作業を実行できます。

orders[,list(NumOrders=length(OrderID)),by=ClientID]

score 1 · Accepted Answer

あなたのコードがしているのはこれだけのようです：

orders[order(orders$ClientID), ]

それはより速いでしょう。

3 に答える 3