問題タブ [dask]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
10832 参照

python - インデックスのリストでdaskデータフレームからデータを選択するにはどうすればよいですか?

インデックスのリストに基づいて、dask データフレームから行を選択したいと考えています。どうやってやるの?

例: たとえば、次の dask データフレームがあるとします。

さらに、私が興味を持っているインデックスのリストがあります。

これから、指定された行のみを含むdaskデータフレームを生成したいと思いますindices_i_want_to_select

0 投票する
1 に答える
854 参照

python - dask データフレームでの .join の結果は、dask データフレームが生成された方法に依存するようです

join.from_delayed メソッドによって生成された dask データフレームに適用すると、予期しない結果が得られました。これを次の例で示したいと思います。これは 3 つの部分で構成されています。

  1. メソッドを介してdaskデータフレームを生成し、それを介してfrom_delayed生成されたdaskデータフレームと結合しますfrom_pandas
  2. メソッドを使用して、両方のデータフレームを pandas データフレームに変換しますcompute。(1)のように参加した
  3. from_delayedメソッドを介して生成された dask データフレームを、 を使用して pandas に変換しcomputeます。Aferwards は、 を使用してそれを dask に戻しfrom_pandasます。次に、(1) のように結合します。

次のコードを検討してください。

dask_from_delayed_join3 つの結果 ( 、pandas_join、 )はすべて同じになると思いdask_from_pandas_joinます。

ただし、最初の結果は他の結果とは異なります。

print(dask_from_delayed_join.compute()):

print(pandas_join):

print(dask_from_pandas_join.compute()):

何が起こっている?

0 投票する
1 に答える
427 参照

python - EC2 でビッグデータ計算を実行中に dask.async.MemoryError

私は m4.4xlarge (64 GB RAM) EC2 ボックスを持っています。私はパンダでダスクを実行しています。次のメモリ エラーが発生します。

約 24 時間の実行後にこれを取得します。これは、タスクが完了するのにかかるおおよその時間であるため、エラーが RAM の不足によるものかどうか、スクリプトの最後にディスク メモリが原因であるかどうかはわかりません。 .to_csv() を使用して大きな DF をディスクに書き込むか、または pandas/numpy の内部メモリ制限ですか?

アップデート:

MRocklinの回答に照らして、いくつかの追加情報があります。

プロセスを実行する方法は次のとおりです。

現在、問題はdfpath140 万行の df であるため、140 万行dfpath_ddf.apply()を超えて実行されます。

全体dfpath_ddf.apply()が完了するとdf.to_csv()発生しますが、あなたが言ったように、定期的にディスクに書き込む方がよいでしょう。

問題は、たとえば 20 万行ごとに定期的にディスクに書き込むようなものをどのように実装すればよいかということです。dfpath_ddf200k チャンク (または同様のもの) に分割して、それぞれを順番に実行できると思いますか?

0 投票する
1 に答える
259 参照

python - dask.distributed でスポット インスタンスを使用する

dask.distributed は ec2 スポット インスタンスの使用をサポートしていますdask-ec2か? http://distributed.readthedocs.io/en/latest/ec2.htmlでそれを指定するオプションが表示されませんでした

0 投票する
1 に答える
173 参照

python - dask はどのようにスケジューラからワーカーにデータを配布しますか?

dask がどのようにデータを分割してワーカーに送信するかについてのドキュメントはありますか? 公式サイトでは見つけられませんでした。

0 投票する
1 に答える
2049 参照

python - dash 分散メモリ エラー

分散ジョブで Dask を実行しているときに、スケジューラで次のエラーが発生しました。

これは、スケジューラまたはいずれかのワーカーでメモリ不足ですか? または両方??

0 投票する
3 に答える
2631 参照

python - dask データフレームに if-else 条件列を作成する

dask データフレームの条件に基づいた列を作成する必要があります。パンダでは、それはかなり簡単です:

While in dask I have to do same thing like below:

Questions:

  1. Is there a better/more straightforward way to achieve it?
  2. I can't modify the first dataframe ddf, i need to create ddf1 to se the changes is dask dataframe Immutable object?
0 投票する
1 に答える
653 参照

python - daskシリーズをデータフレームに連結中にエラーが発生しました

複数の dask コア シリーズがあり、それを 1 つのデータフレームにマージして、さらに csv ファイルに書き込みたいのですが、どうすればそれを行うことができますか。同じことをしようとしているときに次のエラーが発生します。アドバイスをお願いします...

データ

コード

エラー