問題タブ [dask-distributed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - dask ジョブが無期限に一貫性なくハングする
dask-client submit api を使用して、複数の同時 dask ジョブを実行しています。この問題は何度も発生しています。
特定のワーカーのスレッド ダンプには、以下の情報が表示されます。
この問題について誰かが私を案内してくれますか。
dask - distributed.utils - エラー - データの既存のエクスポート: オブジェクトのサイズを変更できません
私は 1 つのノードで dask-scheduler を実行しており、私の dask-worker は別のノードで実行しています。そして、3 番目のノードから dask-scheduler にタスクを送信します。
時々、distributed.utils をスローします
エラー - データの既存のエクスポート: オブジェクトのサイズを変更できません
私はpython 2.7、tornado 4.5.2、tensorflow 1.3.0を使用しています
これはdaskに関連していると確信しています。
dask - タスク スケジューラをオーバーライドして、複数のワーカーに同時にデータをロードする
分散クラスターでグラフ/先物を実行したいと考えています。これらはすべて「データのロード」ルート タスクと、そのデータで実行される一連のトレーニング タスクを持っています。簡略化されたバージョンは次のようになります。
上記のようにこれを実行すると、スケジューラは 1 つのワーカーを取得してファイルを読み取り、そのデータをディスクにスピルして他のワーカーと共有します。ただし、データのロードは通常、同時に実行できる大きな HDF5 ファイルからの読み取りであるため、すべてのワーカーがこのファイルを同時に読み取るようにする (すべてのワーカーがルート タスクを計算する) 方法があるかどうか疑問に思っていました。 1 つのワーカーが完了するのを待ってから、そのワーカーからゆっくりとデータを転送します。
client.run()
すべてのワーカーにファイルを同時に読み取らせるために使用できる方法があることは知っていますが、読み取ったデータを取得して下流のタスクにフィードするにはどうすればよいでしょうか?
複数のインデックスや複数の列でのグループ化などが必要なため、dask データ プリミティブを使用して HDF5 ファイルを同時に読み取ることはできません。