0

大規模なデータ フレーム (数百万行、数千列) が Python で Pandas として作成されます。このデータ フレームは、PyRserve を使用して R に渡されます。これは速くなければなりません - せいぜい数秒です。

pandas には to_json 関数があります。そのような大きなオブジェクトの json 会話との間のやり取りは唯一の方法ですか? そのような大きなオブジェクトは大丈夫ですか?

私はいつでもそれをディスクに書き込んで読み取ることができます(freadを使用して高速であり、それが私が行ったことです)が、これを行う最良の方法は何ですか?

4

1 に答える 1

2

試してみないとto_json、データの書き込みと読み取りの両方で多くのオーバーヘッドが発生するため、データフレームが大きくなると悪化するため、非常に悪い考えのようです。

rpy2 (これは pandas で直接サポートされています) を使用することをお勧めします。または、ディスクに何かを書き込みたい場合 (おそらくデータフレームが一度だけ生成されるため)、HDF5を使用できます( pandasと R のインターフェースの詳細については、このスレッドを参照してください)。この形式を使用します)。

于 2013-08-26T08:17:03.557 に答える