1

私はいくつかの分析のために vaex と dask と共同で作業しています。分析の最初の部分では、 を使用して何らかの処理を行いdask.dataframeます。私の意図は、計算したデータフレームを vaex が読み取るものにエクスポートすることです。データを hdf や arrow などのメモリ マップ可能な形式にエクスポートしたいと考えています。

dask を使用すると、hdf および寄木細工のファイルにエクスポートできます。Vaex では、hdf および arrow としてインポートできます。どちらもcsvファイルとしてのエクスポートとインポートを許可していますが、それは避けたいです。

これまでのところ、次のオプション(および問題)があります。

  • hdf5 ファイルにエクスポートすると、dask はファイルを行形式でエクスポートしますが、vaex は列形式で読み取るため、ファイルをインポートできません ( https://vaex.readthedocs.io/en/latest/faq.html)。
  • データを寄木細工のファイルにエクスポートできますが、vaex からデータを読み取る方法がわかりません。ファイルを矢印テーブルに変換する SO でいくつかの答えを見てきましたが、これにはテーブルをメモリにロードする必要があります。テーブルが大きすぎてメモリに収まらないため、これはできません。

もちろん、csv にエクスポートして vaex にチャンクでロードし、それを列形式の hdf にエクスポートすることもできますが、それが大きなオブジェクト用の 2 つのモジュールの目的であるべきではないと思います。

欠落しているオプションはありますか?それは、テーブル全体をメモリにロードしたり、データセットを 2 回読み書きする必要なく、2 つのモジュールを「ブリッジ」するのに互換性がありますか?

4

1 に答える 1