0

ここで R から pandas を開始します。R の本番環境での使用は、膨大な量のデータを (save_image を介して) .RData としてディスクに保存し、次にワークスペースをロードするときに使用することです。pandas ワークスペース全体をディスクに保存する実際の解決策はないようです。

ディルはありますが、生産に値するようには見えません。これは Pandas/Numpy のアンチパターンですか? HDF5 (または最近発表された Apache Arrow) のようなもので実行状態をスナップショットする必要があると考えています。

ハイバネーションについて話しているわけではないことに注意してください。ここではデータ構造について言及しているだけであり、コードの実行状態などではありません。

IRCの言及に関するさらに議論:

  • hdf5を使用できますが、この場合、計算されたばかりであっても、使用する前に必ずラウンドトリップしてください。残念ながら、to_hdf/read_hdfは、開始したデータフレームを必ずしも提供するとは限りません
  • pickle はデバッグ不可能で、バージョン互換性がなく、Python のみであり、serliaz されていないため安全ではなく、正しいデータが与えられた場合に正しくない可能性があります。

どちらにしても悪いですか?

4

1 に答える 1

0

スクリプト全体をクラスに配置し、pickleを使用してそのオブジェクトをシリアル化および逆シリアル化できます。R のワークスペース インスタンスとまったく同じようには機能しないかもしれませんが、今考えられる最も近いものです。

于 2016-02-17T19:15:52.600 に答える