問題タブ [dask-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Dask.Series に基づいてカテゴリ コード マップを作成する
既知のカテゴリカル dtype を持つ Dask.Series があります。シリーズ全体を計算することなく、関連するマッピングを示す小さなデータフレームを作成したいと考えています。どうすればこれを達成できますか?
上記のコードは、dask にカテゴリ シリーズを作成します。を使用test.cat.codes
すると、カテゴリを次のようなコードに変換できます。
望ましい結果は、最後まで計算コマンドを使用せずに、以下に示すようにカテゴリからコードへのマッピングを取得することです。
望ましい出力:
私は多くのことを試しましたが、それらはすべて、シリーズを pandas シリーズまたはデータフレームに変換する必要があり、dask を使用する目的を無効にします。再パーティション化せずにこれを行うのに役立つものはdaskで見つかりませんでした。これはやりたくないことです。また、この例ではセットアップ目的で DataFrame にアクセスできますが、実際には元のデータフレームにアクセスできないため、一連の「テスト」から開始する必要があることに注意してください。
python - XGBoost モデルに必要なメモリ量は?
背景: 1 億行と約 50 列のトレーニング セットで、dtype を最小型にキャストしました。それでも、ロードされたときのデータフレームは8〜10Gbのようです。
AWS ec2 インスタンス (1 つは 36CPU + 72RAM、もう 1 つは 16CPU + 128RAM) でトレーニングを実行します。
問題:
1; Pandas データフレームにデータをロードし、xgboost でデフォルト設定を試してみると、すぐにメモリが爆発しました 2; また、分散クライアントを有効にして を使用して Dask データフレームを試してみましdask.xgboost
たが、少し長く実行されましたが、ワーカーが警告に失敗し、進行が停止しました。
それで、それが十分であることを確認するために使用する必要があるRAMのサイズを見積もる方法はありますか?
ここにいくつかのコードがあります:
dask - GPU サポートを Dask Gateway とどのように統合しますか?
現在、CPU のみのワーカーで Dask Gateway を使用しています。ただし、ディープ ラーニングがより広く採用されるようになると、Dask Gateway を介して作成されたクラスターに GPU サポートを追加するように移行したいと考えています。
Dask Gateway のドキュメントを確認しましたが、これを設定する方法と、この機能を有効にするために変更する必要があるヘルム チャート/構成のどの部分についての詳細な説明はあまりありません。
私が考えているのは、最初に GCP 上の GKE クラスターに GPU を追加してから、この GPU を利用するタスク ワーカーに RAPIDS dockerfile を使用することですか? Dask Gateway に必要なセットアップはこれですべてですか?
誰かが私を正しい方向に向けることができれば幸いです。