この質問は、私が今週尋ねた前の質問の順序で行われます。
しかし、一般的に私の問題は次のようになります。
- ソケットを介してRに入るレコードのデータストリームがあり、いくつかの分析を行いたいと考えています。
それらは次のように順番に来ます:
- 個人 1 | 1 | 2 | タイムスタンプ 1
- 個人 2 | 4 | 10 | タイムスタンプ 2
- 個人 1 | 2 | 4 | タイムスタンプ 3
それらの記録を維持するための構造を作成する必要があります。主なアイデアは前の質問で説明されていますが、一般的に次のような構造を作成しました。
*var1* *var2* *timestamp*
- individual 1 | [1,2,3] | [2,4,6] | [timestamp1, timestamp3...]
- individual 2 | [4,7,8] | [10,11,12] | [timestamp2, ...]
重要 - この構造は実行時に作成され、拡大されます。作成に時間がかかりすぎるため、これは最良の選択ではないと思います。主な構造は行列で、各ペアの個々の変数の中にレコードのリストがあります。
個人は非常に多く、時間とともに大きく変化します。したがって、いくつかの記録を調べないと、適切な分析を行うのに十分な情報が得られません. 個人のレコードをディスクに保存することにより、R で実行時にキャッシュの王様を作成することを考えています。
完全なデータベースの容量は約 100 GB です。主に各個人内の季節ブロックごとに分析したい(タイムスタンプ変数に依存)。
収集するレコードの量を増やすと、構造の作成に時間がかかりすぎます。
同じタイムスタンプでの観測がないため、各ペアの個々の変数内にリストを含むデータのマトリックスを使用するというアイデアは、3 次元マトリックスの使用から適応されました。それが良いアイデアだったかどうかはわかりません。
誰かがこの問題について何か考えを持っているなら、私はそれを感謝します.