pandas
シリーズのインデックスを再作成するときにメモリ使用量が多いのはなぜでしょうか。
簡単なデータセットを作成します。
a = pd.Series(np.arange(5e7, dtype=np.double))
私のUbuntuによるとtop
、セッション全体は約820MBです。
これをスライスして最初の 100 要素を抽出すると、次のようになります。
a_sliced = a[:100]
これは、メモリ消費量の増加を示していません。
代わりa
に、同じ範囲でインデックスを再作成すると、次のようになります。
a_reindexed = a.reindex(np.arange(100))
約1.8GBのメモリ消費があります。gc.collect
クリーンアップも成功せずに試みました。
これが予期されているかどうか、および大きなメモリ オーバーヘッドなしで大きなデータセットのインデックスを再作成する回避策があるかどうかを知りたいです。
pandas
githubのごく最近のスナップショットを使用しています。