5

Python/Pandas を使用して、ディスクとの間で大きなデータ フレーム (250MB 以上) を効率的に書き込む最良の方法を見つけようとしています。Python for Data Analysisのすべてのメソッドを試しましたが、パフォーマンスは非常に残念です。

これは、現在の分析/データ管理環境を Stata から Python に移行することを検討している、より大きなプロジェクトの一部です。テストでの読み取り/書き込み時間を Stata での読み取り/書き込み時間と比較すると、Python と Pandas は通常 20 倍以上の時間がかかっています。

Python や Pandas ではなく、私が問題であると強く疑っています。

助言がありますか?

4

1 に答える 1

9

Using HDFStore is your best bet (not covered very much in the book, and has changed quite a lot). You will find performance is MUCH better than any other serialization method.

于 2013-10-28T16:08:24.553 に答える