python - Xgboost と vaex

Question

明確にしたいのですがvaex.ml.sklearn、アウトオブコア ML を実行できますか? ドキュメントの例を使用しようとすると、xgboosting プロセスで hdf5 ファイルのデータセットを使用すると (評価されたデータセットは約 3 Gb の RAM を消費します)、RAM の使用量は約 7 ～ 8 Gb になります。単純に、アウトオブコアはそれほど多くの RAM を消費しないと想定しました。私は何を間違っていますか？

私のコードは

import vaex.ml.sklearn
xgb_model = xgboost.sklearn.XGBRegressor(max_depth=4,
                                          learning_rate=0.1,
                                          n_estimators=100,
                                          subsample=0.75,
                                          random_state=42,
                                         )
vaex_xgb_model = vaex.ml.sklearn.Predictor(features=features,
                                           target='target',
                                           model=xgb_model,
                                           prediction_name='prediction_xgb')
vaex_xgb_model.fit(df_train)
df_train = vaex_xgb_model.transform(df_train)

features〜40項目のリストはどこにありますか。

score 1 · Accepted Answer

vaex (または vaex-ml) によって提供されていない、使用している外部モデルは、「そのまま」提供されます。それらを vaex-ml で使用すると、vaex 計算グラフ、シリアライゼーション、遅延評価などに追加する便利な方法が得られます。モデル自体は変更されていません (これはドキュメントストリングに記載されていると思います)。したがって、それらはコアから外れていません。

たとえば、vaex-ml には vaex で実装されている K-means モデルがあると思います。そのため、コアから外れます (つまり、多くのメモリを使用しません)。

vaex-ml で利用可能な StandardScaler、FrequencyEncoder などの前処理変換は、vaex を使用して実装されるため、それらもアウトオブコアになります。

python - Xgboost と vaex

1 に答える 1

Related

Reference