メモリのオーバーヘッドができるだけ低くなるように、パンダを構成またはパッチすることに興味があります。実験では、それぞれ 5000 万の uint32 値を含む 2 つの numpy 配列を作成しました。これらの配列を numpy 形式で保存するには、200 + 200 = 400 M バイトが必要です。配列の 1 つを Series オブジェクト (index=None) にラップすると、最大 600 MB のメモリが消費されます。2 つの配列を DataFrame オブジェクト (インデックス = なし) にラップすると、メモリ要件は ~1600 M バイトになります。
追加のメモリ要件は、Series ストレージでは #rows * 8 バイト、DataFrame ストレージでは #rows * (#columns + 1) * 8 バイトのようです。numpy
元の配列と一緒に Series と DataFrame オブジェクトに格納されている余分なデータを正確に説明できますか?