問題タブ [vaex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python ライブラリ、pandas、vaex、および dask を使用した非常に大きなデータセット +10GB での groupby
10 GB を超えるトランザクション データがあり、DASK を使用してデータを読み取り、関心のある列を選択し、必要な列でグループ化しました。これらはすべて信じられないほど高速でしたが、コンピューティングはうまく機能せず、デバッグは困難でした。
次に、PANDAS チャンクサイズを使用してデータを開くことにし、データを 100 万単位でチャンク化しました。次に、VAEX を使用してファイルを 1 つの大きな HDF5 ファイルに結合しました。ここまではすべてうまくいきましたが、列をグループ化して 50k データを超えると、コードがクラッシュします。私はこれをどのように管理するのか疑問に思っていました.vaexデータフレームでそれらを結合する前にすべてのpandasチャンクをグループ化する必要がありますか、それとも私のvaexデータフレームをdaskデータフレームに変換し、グループ化し、グループ化されたデータフレームをvaexに変換することは可能ですか?パンダに似ているので、私にとってはよりユーザーフレンドリーです。
初めての投稿です、情報不足、不明な点がありましたら、お気軽に質問してください。