パンダのHDFStoreから特定の列を取得するにはどうすればよいですか?私は定期的に、メモリ内で操作するには大きすぎる非常に大きなデータセットを処理します。csvファイルを繰り返し読み込み、各チャンクをHDFStoreオブジェクトに追加してから、データのサブセットを操作したいと思います。簡単なcsvファイルを読み込んで、次のコードを使用してHDFStoreにロードしました。
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
そして出力:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
私の質問は、どのようにして特定の列にアクセスするのtmp['df']
ですか?select()
ドキュメントには、メソッドといくつかのオブジェクトが記載されていTerm
ます。提供されている例は、パネルデータに適用されます。ただし、私は初心者であり、より単純なデータフレームの場合に拡張することはできません。私の推測では、どういうわけか列のインデックスを作成する必要があります。ありがとう!