、、のdf
3 つの列を持つデータセットがあります。key_val でグループ化し、これらのグループに関して(resp. ) の合計を抽出します。これが私のコードです:'String_key_val'
'Float_other_val1'
'Int_other_val2'
val1
val2
df = pandas.read_csv('test.csv')
grouped = df.groupby('String_key_val')
series_calculus1 = grouped['Float_other_val1'].sum()
series_calculus2 = grouped['Int_other_val2'].sum()
res = pandas.concat([series_calculus1, series_calculus2], axis=1)
res.to_csv('output_test.csv')
私の問題は次のとおりです。エントリ データセットが 10GB で、4Go RAM を使用しているため、計算をチャンクする必要がありますが、方法がわかりません。を使おうと思ったのですHDFStore
が、数値データセットを構築するだけなので、 complete を格納する意味がなく、単純な配列を格納できDataFrame
ないと思います。HDFStore
私に何ができる?