1

Dask と Airflow を使用してデータ パイプラインを実装しようとしています。NodeJS のミドルウェアと同様に、既存の DAG にノードを追加/削除できるようにしたいと考えています。私の考えは、データフレームをピクルして、次のステップでピクルして次のステップに進む前に、変換を取得して適用できるようにすることです。しかし、Dask の並列処理では、次のノードを任意のワーカーに割り当てることができました。スケジューラーと数人のワーカーをローカルに配置することを考えています。大きな仕事があるときは、EC2 ワーカーを起動してその仕事を処理することができます。なにか提案を?

4

1 に答える 1

1

自分で転送するためにデータを明示的にシリアル化する必要はありません。Dask はノード間でデータを自動的に移動し、必要に応じてデータをシリアル化します。

于 2017-07-21T11:05:22.400 に答える