4

pandas を使用して csv ファイル (約 250 MB) をデータフレームとして読み込もうとしています。最初の試行では、典型的な read_csv コマンドを使用しましたが、エラー メモリが表示されます。チャンクを使用した pandas の Large, persisted DataFrame に記載されているアプローチを試しました。

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)

しかし、連結しようとすると、次のエラーを受け取りました: Exception: "All objects passed were None"。実際、チャンクにアクセスできません

pandas 0.11.0で32ビットにwinpython 3.3.2.1を使用しています

4

2 に答える 2

2

64 ビット版の winpython をインストールすることをお勧めします。その後、250 MB のファイルを問題なくロードできるはずです。

于 2013-07-30T16:13:10.003 に答える
0

遅くなりましたが、投稿されたコードの実際の問題は、pd.concat([chunk for chunk in x])これらすべてのチャンクを 1 つの大きな DataFrame に再び連結するため、チャンクの利点を効果的にキャンセルすることです。
それはおそらく一時的に2倍のメモリを必要とします.

于 2016-04-12T20:47:14.437 に答える