私はたくさんのcsvデータセットを持っており、それぞれのサイズは約10Gbです。それらの列からヒストグラムを生成したいと思います。しかし、numpyでこれを行う唯一の方法は、最初に列全体をnumpy配列にロードしてから、numpy.histogram
その配列を呼び出すことだと思われます。これにより、不要な量のメモリが消費されます。
numpyはオンラインビニングをサポートしていますか?csvを1行ずつ繰り返し、値を読み取るときに値をビン化するものを期待しています。このようにして、一度に最大1行がメモリに保存されます。
私自身を転がすのは難しいことではないでしょうが、誰かがすでにこのホイールを発明したかどうか疑問に思います。