1

私はこの簡単なコードを持っています

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')

しかし、データが大きすぎてメモリの問題が発生します。

このチャンクごとに行うクリーンな方法は何ですか?

4

1 に答える 1

0

csv が本当に大きい場合は、ここで詳しく説明する方法を使用してファイルを分割します

次に、ファイルを反復処理し、それぞれに pd.read_csv を使用してから、pd.to_hdf メソッドを使用します

to_hdf の場合は、ここでパラメーターを確認してください: DataFrame.to_hdf モード 'a' を確認し、追加を検討する必要があります。

データフレーム構造の詳細を知らなければ、さらにコメントすることは困難です。

read_csv にもパラメータがあります: low_memory=False

于 2015-05-15T23:07:26.410 に答える