python - パンダで大きなCSVファイルをロードする

Question

pandas を使用して csv ファイル (約 250 MB) をデータフレームとして読み込もうとしています。最初の試行では、典型的な read_csv コマンドを使用しましたが、エラーメモリが表示されます。チャンクを使用した pandas の Large, persisted DataFrame に記載されているアプローチを試しました。

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)

しかし、連結しようとすると、次のエラーを受け取りました: Exception: "All objects passed were None"。実際、チャンクにアクセスできません

pandas 0.11.0で32ビットにwinpython 3.3.2.1を使用しています

score 2 · Accepted Answer

64 ビット版の winpython をインストールすることをお勧めします。その後、250 MB のファイルを問題なくロードできるはずです。

score 0 · Accepted Answer

遅くなりましたが、投稿されたコードの実際の問題は、pd.concat([chunk for chunk in x])これらすべてのチャンクを 1 つの大きな DataFrame に再び連結するため、チャンクの利点を効果的にキャンセルすることです。
それはおそらく一時的に2倍のメモリを必要とします.

python - パンダで大きなCSVファイルをロードする

2 に答える 2

Related

Reference