問題タブ [dask]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでの大きな配列の乗算
多数の反復で乗算する大きな配列もあります。
私は約1500の長さの配列を持つモデルをトレーニングしており、ほぼ1週間かかる約1000000回の3つの乗算を実行します。
Dask を見つけて、通常の numpy の方法と比較しようとしましたが、numpy の方が高速であることがわかりました。
0.08502793312072754
0.00015974044799804688
私はdaskを間違って使用していますか、それともそれほど高速ですか?
python - das dataframe apply が並行して実行されない
次の python スクリプトがあり、既存の pandas データフレームを使用して dask データフレームを作成します。私の関数は純粋な python を使用しているため、マルチプロセッシング スケジューラを使用しています。スケジューラは 8 つのプロセス (パーティションごとに 1 つ) を作成しますが、それらは一度に 1 つずつ順番に実行されます。
私は計算を並列化するためだけにdaskを使用しています.私のデータセットはメインメモリにとどまるのに十分小さいです.
すべてのプロセスを並行して実行することは可能ですか?
python - DASK とその from_pandas 関数の RAM の問題
大規模なデータセットで RAM の問題を回避するために Python 3.4 で DASK パッケージを使用しようとしていますが、問題に気づきました。
ネイティブ機能「read_csv」を使用して、150MB未満のRAMを使用して大きなデータセットをdaskデータフレームにロードします。
PANDAS DB 接続 (制限およびオフセット オプションを使用) と dask 関数 "from_pandas" を使用して読み取った同じデータセットは、私の RAM を 500/750 MB まで満たします。
なぜこれが起こるのか理解できません。この問題を修正したいと思います。
ここにコード:
助けてくれてありがとう
ニュースを待っています
python - dask を使用するときに `Bag.take(n)` で空の結果を回避するにはどうすればよいですか?
コンテキスト: Das のドキュメントにはBag.take()
、最初のパーティションからのみ収集されることが明確に記載されています。ただし、フィルターを使用すると、最初のパーティションが空で、他のパーティションが空でない場合があります。
質問:アイテムBag.take()
を収集するのに十分な数のパーティションn
(または使用可能な最大数未満n
)から収集するように使用することは可能ですか?
python - npartitions は dask.dataframe.head() の結果に影響しますか?
次のコードを実行すると、dask.dataframe.head() の結果は npartitions に依存します。
これにより、次の結果が得られます。
ただし、npartitions を 1 または 2 に設定すると、期待どおりの結果が得られます。
npartitions がデータフレームの長さよりも短いことが重要なようです。これは意図したものですか?