株価ティック データの大きなデータ セット (圧縮されていない 200GB、 bz2 -9 で圧縮された 9GB) があります。
それらに対して基本的な時系列分析を実行したいと思います。
私のマシンには 16GB の RAM があります。
私は次のことを好みます:
すべてのデータを圧縮してメモリに保持する
そのデータをオンザフライで解凍し、ストリーミングします [ディスクにヒットすることはありません]
すべての分析をメモリ内で行う
ここで、Clojure の怠惰性と将来のオブジェクトとの優れた相互作用があると思います (つまり、オブジェクトにアクセスしようとするときにオブジェクト st を定義でき、その場で解凍します)。
質問: Clojure で高パフォーマンスの時系列分析を行う際に留意すべきことは何ですか?
私が特に興味を持っているのは、次のようなトリックです。
ティックデータをメモリに効率的に保存する
計算を効率的に行う
データのパス数を減らすための奇妙な畳み込み
書籍/記事/研究論文の提案を歓迎します。(私はCSの博士課程の学生です)。
ありがとう。