dask - Dask-ml ParallelPostFit が分散を使用せず、ローカルマシンでメモリエラーが発生する

翻译自：https://stackoverflow.com/questions/69189525 2021-09-15T08:23:02.473

40 次

大規模なデータセットに対してランダムフォレスト予測を実行し、結果をデータフレームとして保存したいと考えています。https://examples.dask.org/machine-learning/parallel-prediction.htmlを読むと、「ワーカーは、単一のマシンでデータを収集することなく、予測値を共有ファイルシステムに書き込むことができます」と書かれています。しかし、私はこれを行う方法を理解できません。分散クラスターに接続して次のことを行うことで、これを試しました。

x = da.from_array(i,100000)
t = model.predict(x)
t= client.persist(t)
df=dd.from_array(t)
df.to_parquet("xy.parquet")

ただし、これはクラスターで計算をトリガーせず (ダッシュボードで観察)、to_parquet計算時xに1TB RAM マシンでメモリエラーが発生しますt。クラスターに送信する他のものはすべてそこで計算されます。では、予測の結果を保存するにはどうすればよいでしょうか。

編集:これは、入力のサイズの問題のようxです。の形をしてい(24507731,8)ます。(24507,8)代わりに、計算が終了した形状でランダムデータを投入するだけです。ParallelPostfitそもそも大規模なデータの予測を可能にするはずだったので、これは非常に驚くべきことです。

dask - Dask-ml ParallelPostFit が分散を使用せず、ローカル マシンでメモリ エラーが発生する

0 に答える 0

Related

Reference

dask - Dask-ml ParallelPostFit が分散を使用せず、ローカルマシンでメモリエラーが発生する