0

この質問は、私が今週尋ねたの質問の順序で行われます。

しかし、一般的に私の問題は次のようになります。

  • ソケットを介してRに入るレコードのデータストリームがあり、いくつかの分析を行いたいと考えています。

それらは次のように順番に来ます:

  1. 個人 1 | 1 | 2 | タイムスタンプ 1
  2. 個人 2 | 4 | 10 | タイムスタンプ 2
  3. 個人 1 | 2 | 4 | タイムスタンプ 3

それらの記録を維持するための構造を作成する必要があります。主なアイデアはの質問で説明されていますが、一般的に次のような構造を作成しました。

                     *var1*     *var2*             *timestamp*
- individual 1   | [1,2,3] |  [2,4,6]   | [timestamp1, timestamp3...]
- individual 2   | [4,7,8] | [10,11,12] | [timestamp2, ...]

重要 - この構造は実行時に作成され、拡大されます。作成に時間がかかりすぎるため、これは最良の選択ではないと思います。主な構造は行列で、各ペアの個々の変数の中にレコードのリストがあります。

  1. 個人は非常に多く、時間とともに大きく変化します。したがって、いくつかの記録を調べないと、適切な分析を行うのに十分な情報が得られません. 個人のレコードをディスクに保存することにより、R で実行時にキャッシュの王様を作成することを考えています。

  2. 完全なデータベースの容量は約 100 GB です。主に各個人内の季節ブロックごとに分析したい(タイムスタンプ変数に依存)。

  3. 収集するレコードの量を増やすと、構造の作成に時間がかかりすぎます。

  4. 同じタイムスタンプでの観測がないため、各ペアの個々の変数内にリストを含むデータのマトリックスを使用するというアイデアは、3 次元マトリックスの使用から適応されました。それが良いアイデアだったかどうかはわかりません。

誰かがこの問題について何か考えを持っているなら、私はそれを感謝します.

4

0 に答える 0