問題タブ [dask-delayed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - タブと改行文字で区切られたデータ文字列から dask データフレームを作成する方法
データは、\ 文字 (列の場合) と行の改行 \n 文字で区切られた文字列の形式になっています。
Dask.array.from_array() は入力として配列のみをサポートしているようです。
を使用して上記のテキストを np.array に変換できますが
文字列をダスク配列またはデータフレームに直接変換するのに相当するものがあるかどうか疑問に思っています。
python - 遅延 (DASK) を使用した大きな CSV ファイルの読み取り
delayed
多くの大きなCSVファイルを読み取るために使用しています:
function_1
: データセット 1 をインポートし、いくつかの計算を実行しています。function_2
: データセット 2 をインポートしています。function_3
: データセットといくつかの計算をマージします。
次に、関数を使用してこれらの関数を呼び出すループを使用しdelayed
ます。多くの CSV ファイルがあり、すべてのファイルが 500 MB を超えています。これは DASK ( delayed
) を使用してタスクを実行するための適切な手順ですか?
dask - ノードのグループを Dask と一緒に実行するにはどうすればよいですか
画像処理グラフがあり、多くの画像をバッチで処理したいと考えています。私のグラフは次のようになります。
グラフ bokeh を実行すると、次のような実行パスが表示されます。
これにより、ロード イメージの出力がメガバイトのイメージになるため、マシンがメモリ不足になり、クラッシュします。Save result の結果は非常に小さく、問題ないはずなので、グラフを次のように実行したいと思います。
ダスクでこれを行うにはどうすればよいですか?
最適化のカスタマイズは、中間ノードを融合できる可能性がある場合に役立つようです。これが最善の方法ですか?
python - Dask のコア/スレッド数の制御
次の仕様のワークステーションがあります。
いくつかの計算を分散するためにdaskを実装しましたが、次のように設定してClient()
います:
delayed
で関数を呼び出すと、dask がすべてのリソースを使用しているようですdask.compute(*computations, scheduler='distributed')
。ダッシュボードは次のようになります。
さて、先に進んで myClient()
を次のように変更すると:
リソースの半分を使用することを期待していますが、ダッシュボードでわかるように、そうではありません。
Client()
dasがまだすべてのリソースを使用しているのはなぜですか? これに関するご意見をいただければ幸いです。