python - Dask データフレームはメモリを超えるデータセットをどのように処理しますか?

Question

データフレーム用の Dask パッケージのドキュメントには、次のように記載されています。

Dask データフレームは pandas データフレームのように見えますが、複数のスレッドを使用してメモリよりも大きなデータセットを操作します。

しかし、後で同じページで：

1 つの dask DataFrame は、インデックスに沿って分離された複数のインメモリ pandas DataFrame で構成されます。

Dask はディスクから異なる DataFrame パーティションを順番に読み取り、メモリに収まるように計算を実行しますか? 必要に応じて一部のパーティションをディスクにスピルしますか? 一般に、Dask はデータのメモリ <--> ディスク IO をどのように管理して、メモリよりも大きなデータ分析を可能にしますか?

10M MovieLens データセットでいくつかの基本的な計算 (平均評価など) を実行しようとしたところ、ラップトップ (8GB RAM) がスワップし始めました。

score 7 · Accepted Answer

Dask.dataframe はデータを遅延ロードし、データセットを介して 1 回の線形スキャンで計算全体を実行しようとします。驚くべきことに、これは通常実行可能です。

ディスクにインテリジェントにダンプすることも、特にシャッフルが必要な場合に管理できるオプションですが、一般的にこれを回避する方法があります。

python - Dask データフレームはメモリを超えるデータセットをどのように処理しますか?

2 に答える 2

Related

Reference