問題タブ [dask-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
97 参照

python - Dask.Series に基づいてカテゴリ コード マップを作成する

既知のカテゴリカル dtype を持つ Dask.Series があります。シリーズ全体を計算することなく、関連するマッピングを示す小さなデータフレームを作成したいと考えています。どうすればこれを達成できますか?

上記のコードは、dask にカテゴリ シリーズを作成します。を使用test.cat.codesすると、カテゴリを次のようなコードに変換できます。

望ましい結果は、最後まで計算コマンドを使用せずに、以下に示すようにカテゴリからコードへのマッピングを取得することです。

望ましい出力:

私は多くのことを試しましたが、それらはすべて、シリーズを pandas シリーズまたはデータフレームに変換する必要があり、dask を使用する目的を無効にします。再パーティション化せずにこれを行うのに役立つものはdaskで見つかりませんでした。これはやりたくないことです。また、この例ではセットアップ目的で DataFrame にアクセスできますが、実際には元のデータフレームにアクセスできないため、一連の「テスト」から開始する必要があることに注意してください。

0 投票する
0 に答える
621 参照

python - XGBoost モデルに必要なメモリ量は?

背景: 1 億行と約 50 列のトレーニング セットで、dtype を最小型にキャストしました。それでも、ロードされたときのデータフレームは8〜10Gbのようです。

AWS ec2 インスタンス (1 つは 36CPU + 72RAM、もう 1 つは 16CPU + 128RAM) でトレーニングを実行します。

問題: 1; Pandas データフレームにデータをロードし、xgboost でデフォルト設定を試してみると、すぐにメモリが爆発しました 2; また、分散クライアントを有効にして を使用して Dask データフレームを試してみましdask.xgboostたが、少し長く実行されましたが、ワーカーが警告に失敗し、進行が停止しました。

それで、それが十分であることを確認するために使用する必要があるRAMのサイズを見積もる方法はありますか?

ここにいくつかのコードがあります:

0 投票する
1 に答える
449 参照

dask - GPU サポートを Dask Gateway とどのように統合しますか?

現在、CPU のみのワーカーで Dask Gateway を使用しています。ただし、ディープ ラーニングがより広く採用されるようになると、Dask Gateway を介して作成されたクラスターに GPU サポートを追加するように移行したいと考えています。

Dask Gateway のドキュメントを確認しましたが、これを設定する方法と、この機能を有効にするために変更する必要があるヘルム チャート/構成のどの部分についての詳細な説明はあまりありません。

私が考えているのは、最初に GCP 上の GKE クラスターに GPU を追加してから、この GPU を利用するタスク ワーカーに RAPIDS dockerfile を使用することですか? Dask Gateway に必要なセットアップはこれですべてですか?

誰かが私を正しい方向に向けることができれば幸いです。