問題タブ [dask-distributed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - das 複数プロセス no-nanny によるパフォーマンスへの影響
プロセスのみの dask ワーカーを使用し、nanny を使用した場合と比べて、パフォーマンスが 5/6 倍低下したことに気付きました。これは予想される動作ですか?
労働者の状態により、乳母なしでdaskを実行したいです。労働者に状態を持たせることは望ましくありませんが、それは私の制御範囲外です (サードパーティのライブラリ)。
代わりに、ナニーを使用して dask ワーカーを実行する場合、ワーカーの障害/再起動をキャプチャして、ワーカーを再初期化できますか?
dask - Dask を使用して大規模な公開配列の単一要素にアクセスする
配列全体を取得せずに、Dask を使用して公開された大規模な配列内の単一の要素のみを取得するより高速な方法はありますか?
以下の例では、client.get_dataset('array1')[0] は client.get_dataset('array1') とほぼ同じ時間がかかります。
dask - Dask でワーカー間でピクルスを渡すベスト プラクティスは何ですか?
Dask と Airflow を使用してデータ パイプラインを実装しようとしています。NodeJS のミドルウェアと同様に、既存の DAG にノードを追加/削除できるようにしたいと考えています。私の考えは、データフレームをピクルして、次のステップでピクルして次のステップに進む前に、変換を取得して適用できるようにすることです。しかし、Dask の並列処理では、次のノードを任意のワーカーに割り当てることができました。スケジューラーと数人のワーカーをローカルに配置することを考えています。大きな仕事があるときは、EC2 ワーカーを起動してその仕事を処理することができます。なにか提案を?