私はこの簡単なコードを持っています
data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None,
names=None, usecols=None)
data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')
しかし、データが大きすぎてメモリの問題が発生します。
このチャンクごとに行うクリーンな方法は何ですか?
csv が本当に大きい場合は、ここで詳しく説明する方法を使用してファイルを分割します。
次に、ファイルを反復処理し、それぞれに pd.read_csv を使用してから、pd.to_hdf メソッドを使用します
to_hdf の場合は、ここでパラメーターを確認してください: DataFrame.to_hdf モード 'a' を確認し、追加を検討する必要があります。
データフレーム構造の詳細を知らなければ、さらにコメントすることは困難です。
read_csv にもパラメータがあります: low_memory=False