python - 大きな Pandas データフレームをディスクに効率的に書き込む

Question

Python/Pandas を使用して、ディスクとの間で大きなデータフレーム (250MB 以上) を効率的に書き込む最良の方法を見つけようとしています。Python for Data Analysisのすべてのメソッドを試しましたが、パフォーマンスは非常に残念です。

これは、現在の分析/データ管理環境を Stata から Python に移行することを検討している、より大きなプロジェクトの一部です。テストでの読み取り/書き込み時間を Stata での読み取り/書き込み時間と比較すると、Python と Pandas は通常 20 倍以上の時間がかかっています。

Python や Pandas ではなく、私が問題であると強く疑っています。

助言がありますか？

score 9 · Accepted Answer

Using HDFStore is your best bet (not covered very much in the book, and has changed quite a lot). You will find performance is MUCH better than any other serialization method.

python - 大きな Pandas データ フレームをディスクに効率的に書き込む

1 に答える 1

Related

Reference

python - 大きな Pandas データフレームをディスクに効率的に書き込む