次のような形式になる可能性が最も高い大量のデータを収集しています。
ユーザー 1: (a,o,x,y,z,t,h,u)
u を除くすべての変数が時間に関して動的に変化する場所 - これはユーザー名を格納するために使用されます。私のバックグラウンドは「ビッグデータ」にあまり集中していないため、理解しようとしているのは、配列を最終的に作成すると、各タイムステップで分析を実行するため、108000 x 3500 のような非常に大きくなるということです。それをグラフ化して、これを管理するのに適切なデータベースは何かを決定しようとしています。これは科学研究のためなので、私は CDF と HDF5 を調べていました。NASAで読んだ内容に基づいて、CDF を使用したいと思います。しかし、これはそのようなデータを管理して速度と効率を向上させる正しい方法でしょうか?
最終的なデータセットにはすべてのユーザーが列として含まれ、行にはタイムスタンプが付けられるため、分析プログラムは行ごとに読み取ってデータを解釈します。そして、データセットにエントリを作成します。たぶん、CouchDB や RDBMS などを検討する必要があるかもしれませんが、どこから始めればよいかわかりません。アドバイスをいただければ幸いです。