r - r 行列のオンライン構造に時間がかかりすぎる

Question

この質問は、私が今週尋ねた前の質問の順序で行われます。

しかし、一般的に私の問題は次のようになります。

ソケットを介してRに入るレコードのデータストリームがあり、いくつかの分析を行いたいと考えています。

それらは次のように順番に来ます:

個人 1 | 1 | 2 | タイムスタンプ 1
個人 2 | 4 | 10 | タイムスタンプ 2
個人 1 | 2 | 4 | タイムスタンプ 3

それらの記録を維持するための構造を作成する必要があります。主なアイデアは前の質問で説明されていますが、一般的に次のような構造を作成しました。

                     *var1*     *var2*             *timestamp*
- individual 1   | [1,2,3] |  [2,4,6]   | [timestamp1, timestamp3...]
- individual 2   | [4,7,8] | [10,11,12] | [timestamp2, ...]

重要 - この構造は実行時に作成され、拡大されます。作成に時間がかかりすぎるため、これは最良の選択ではないと思います。主な構造は行列で、各ペアの個々の変数の中にレコードのリストがあります。

個人は非常に多く、時間とともに大きく変化します。したがって、いくつかの記録を調べないと、適切な分析を行うのに十分な情報が得られません. 個人のレコードをディスクに保存することにより、R で実行時にキャッシュの王様を作成することを考えています。
完全なデータベースの容量は約 100 GB です。主に各個人内の季節ブロックごとに分析したい（タイムスタンプ変数に依存）。
収集するレコードの量を増やすと、構造の作成に時間がかかりすぎます。
同じタイムスタンプでの観測がないため、各ペアの個々の変数内にリストを含むデータのマトリックスを使用するというアイデアは、3 次元マトリックスの使用から適応されました。それが良いアイデアだったかどうかはわかりません。

誰かがこの問題について何か考えを持っているなら、私はそれを感謝します.

r - r 行列のオンライン構造に時間がかかりすぎる

0 に答える 0

Related

Reference