最近、大規模なデータセット (40 万行以上) に取り組んでいます。これまでのところ、私は XTS 形式を使用してきました。これは、数万分の 1 の要素の「小さな」データセットで問題なく動作しました。
プロジェクトが大きくなった今、R はデータベースのデータを取得して XTS に入れるときに単純にクラッシュします。
Rは最大2 ^ 32-1要素(またはバージョンによっては2 ^ 64-1)のサイズのベクトルを持つことができるはずだと私は理解しています。したがって、XTSにはいくつかの制限がある可能性があるという結論に達しましたが、ドキュメントで答えを見つけることができませんでした. (理論的に可能なベクトルサイズの理解について、私は少し自信過剰だったのかもしれません)。
要約すると、次のことを知りたいです。
- XTSには確かにサイズ制限があります
- 大規模な時系列を処理する最もスマートな方法は何だと思いますか? (私は、分析をいくつかの小さなデータセットに分割することを考えていました)。
- エラー メッセージは表示されません。R は単に自動的にシャットダウンします。これは既知の動作ですか?
解決
- R と同じで、使用するメモリの種類 (64 ビット、32 ビット) によって異なります。とにかくとてつもなく大きい。
- データのチャンク化は確かに良いアイデアですが、必須ではありません。
- この問題は、R 2.11.1 で解決された R 2.11.0 のバグに起因します。長い日付ベクトル (ここでは XTS のインデックス) に問題がありました。