問題タブ [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
856 参照

python - Pythonでの大きな配列の乗算

多数の反復で乗算する大きな配列もあります。

私は約1500の長さの配列を持つモデルをトレーニングしており、ほぼ1週間かかる約1000000回の3つの乗算を実行します。

Dask を見つけて、通常の numpy の方法と比較しようとしましたが、numpy の方が高速であることがわかりました。

0.08502793312072754

0.00015974044799804688

私はdaskを間違って使用していますか、それともそれほど高速ですか?

0 投票する
1 に答える
1417 参照

python - das dataframe apply が並行して実行されない

次の python スクリプトがあり、既存の pandas データフレームを使用して dask データフレームを作成します。私の関数は純粋な python を使用しているため、マルチプロセッシング スケジューラを使用しています。スケジューラは 8 つのプロセス (パーティションごとに 1 つ) を作成しますが、それらは一度に 1 つずつ順番に実行されます。

私は計算を並列化するためだけにdaskを使用しています.私のデータセットはメインメモリにとどまるのに十分小さいです.

すべてのプロセスを並行して実行することは可能ですか?

0 投票する
1 に答える
1311 参照

python - DASK とその from_pandas 関数の RAM の問題

大規模なデータセットで RAM の問題を回避するために Python 3.4 で DASK パッケージを使用しようとしていますが、問題に気づきました。

ネイティブ機能「read_csv」を使用して、150MB未満のRAMを使用して大きなデータセットをdaskデータフレームにロードします。

PANDAS DB 接続 (制限およびオフセット オプションを使用) と dask 関数 "from_pandas" を使用して読み取った同じデータセットは、私の RAM を 500/750 MB まで満たします。

なぜこれが起こるのか理解できません。この問題を修正したいと思います。

ここにコード:

助けてくれてありがとう

ニュースを待っています

0 投票する
1 に答える
303 参照

python - dask を使用するときに `Bag.take(n)` で空の結果を回避するにはどうすればよいですか?

コンテキスト: Das のドキュメントにはBag.take()、最初のパーティションからのみ収集されることが明確に記載されています。ただし、フィルターを使用すると、最初のパーティションが空で、他のパーティションが空でない場合があります。

質問:アイテムBag.take()を収集するのに十分な数のパーティションn(または使用可能な最大数未満n)から収集するように使用することは可能ですか?

0 投票する
1 に答える
1340 参照

python - npartitions は dask.dataframe.head() の結果に影響しますか?

次のコードを実行すると、dask.dataframe.head() の結果は npartitions に依存します。

これにより、次の結果が得られます。

ただし、npartitions を 1 または 2 に設定すると、期待どおりの結果が得られます。

npartitions がデータフレームの長さよりも短いことが重要なようです。これは意図したものですか?