Dask と Airflow を使用してデータ パイプラインを実装しようとしています。NodeJS のミドルウェアと同様に、既存の DAG にノードを追加/削除できるようにしたいと考えています。私の考えは、データフレームをピクルして、次のステップでピクルして次のステップに進む前に、変換を取得して適用できるようにすることです。しかし、Dask の並列処理では、次のノードを任意のワーカーに割り当てることができました。スケジューラーと数人のワーカーをローカルに配置することを考えています。大きな仕事があるときは、EC2 ワーカーを起動してその仕事を処理することができます。なにか提案を?
質問する
303 次