問題タブ [dask]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - インデックスのリストでdaskデータフレームからデータを選択するにはどうすればよいですか?
インデックスのリストに基づいて、dask データフレームから行を選択したいと考えています。どうやってやるの?
例: たとえば、次の dask データフレームがあるとします。
さらに、私が興味を持っているインデックスのリストがあります。
これから、指定された行のみを含むdaskデータフレームを生成したいと思いますindices_i_want_to_select
python - dask データフレームでの .join の結果は、dask データフレームが生成された方法に依存するようです
join
.from_delayed メソッドによって生成された dask データフレームに適用すると、予期しない結果が得られました。これを次の例で示したいと思います。これは 3 つの部分で構成されています。
- メソッドを介してdaskデータフレームを生成し、それを介して
from_delayed
生成されたdaskデータフレームと結合しますfrom_pandas
- メソッドを使用して、両方のデータフレームを pandas データフレームに変換します
compute
。(1)のように参加した from_delayed
メソッドを介して生成された dask データフレームを、 を使用して pandas に変換しcompute
ます。Aferwards は、 を使用してそれを dask に戻しfrom_pandas
ます。次に、(1) のように結合します。
次のコードを検討してください。
dask_from_delayed_join
3 つの結果 ( 、pandas_join
、 )はすべて同じになると思いdask_from_pandas_join
ます。
ただし、最初の結果は他の結果とは異なります。
print(dask_from_delayed_join.compute())
:
print(pandas_join)
:
print(dask_from_pandas_join.compute())
:
何が起こっている?
python - EC2 でビッグデータ計算を実行中に dask.async.MemoryError
私は m4.4xlarge (64 GB RAM) EC2 ボックスを持っています。私はパンダでダスクを実行しています。次のメモリ エラーが発生します。
約 24 時間の実行後にこれを取得します。これは、タスクが完了するのにかかるおおよその時間であるため、エラーが RAM の不足によるものかどうか、スクリプトの最後にディスク メモリが原因であるかどうかはわかりません。 .to_csv() を使用して大きな DF をディスクに書き込むか、または pandas/numpy の内部メモリ制限ですか?
アップデート:
MRocklinの回答に照らして、いくつかの追加情報があります。
プロセスを実行する方法は次のとおりです。
現在、問題はdfpath
140 万行の df であるため、140 万行dfpath_ddf.apply()
を超えて実行されます。
全体dfpath_ddf.apply()
が完了するとdf.to_csv()
発生しますが、あなたが言ったように、定期的にディスクに書き込む方がよいでしょう。
問題は、たとえば 20 万行ごとに定期的にディスクに書き込むようなものをどのように実装すればよいかということです。dfpath_ddf
200k チャンク (または同様のもの) に分割して、それぞれを順番に実行できると思いますか?
python - dask.distributed でスポット インスタンスを使用する
dask.distributed は ec2 スポット インスタンスの使用をサポートしていますdask-ec2
か? http://distributed.readthedocs.io/en/latest/ec2.htmlでそれを指定するオプションが表示されませんでした
python - dask はどのようにスケジューラからワーカーにデータを配布しますか?
dask がどのようにデータを分割してワーカーに送信するかについてのドキュメントはありますか? 公式サイトでは見つけられませんでした。
python - dash 分散メモリ エラー
分散ジョブで Dask を実行しているときに、スケジューラで次のエラーが発生しました。
これは、スケジューラまたはいずれかのワーカーでメモリ不足ですか? または両方??
python - dask データフレームに if-else 条件列を作成する
dask データフレームの条件に基づいた列を作成する必要があります。パンダでは、それはかなり簡単です:
While in dask I have to do same thing like below:
Questions:
- Is there a better/more straightforward way to achieve it?
- I can't modify the first dataframe ddf, i need to create ddf1 to se the changes is dask dataframe Immutable object?
python - daskシリーズをデータフレームに連結中にエラーが発生しました
複数の dask コア シリーズがあり、それを 1 つのデータフレームにマージして、さらに csv ファイルに書き込みたいのですが、どうすればそれを行うことができますか。同じことをしようとしているときに次のエラーが発生します。アドバイスをお願いします...