apache-spark - 個々のマシンで pyspark を使用してタスクスロットを設定する

Question

ライブラリを使用SparkTrialsして ML モデルの最適化を実行しようとしています。hyperoptこれを 16 コアの単一マシンで実行していますが、コア数を 8 に設定する次のコードを実行すると、コアが 1 つしか使用されていないことを示す警告が表示されます。

SparkTrialsspark_sessionは、理論的にはコア数を設定する引数として受け入れます。

誰でも私を助けることができますか？

ありがとう！

import os, shutil, tempfile
from hyperopt import fmin, tpe, hp, SparkTrials, STATUS_OK
import numpy as np
from sklearn import linear_model, datasets, model_selection
import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local").config('spark.local.dir', './').config("spark.executor.cores", 8).getOrCreate()

def gen_data(bytes):
  """
  Generates train/test data with target total bytes for a random regression problem.
  Returns (X_train, X_test, y_train, y_test).
  """
  n_features = 100
  n_samples = int(1.0 * bytes / (n_features + 1) / 8)
  X, y = datasets.make_regression(n_samples=n_samples, n_features=n_features, random_state=0)
  return model_selection.train_test_split(X, y, test_size=0.2, random_state=1)

def train_and_eval(data, alpha):
  """
  Trains a LASSO model using training data with the input alpha and evaluates it using test data.
  """
  X_train, X_test, y_train, y_test = data  
  model = linear_model.Lasso(alpha=alpha)
  model.fit(X_train, y_train)
  loss = model.score(X_test, y_test)
  return {"loss": loss, "status": STATUS_OK}

def tune_alpha(objective):
  """
  Uses Hyperopt's SparkTrials to tune the input objective, which takes alpha as input and returns loss.
  Returns the best alpha found.
  """
  best = fmin(
    fn=objective,
    space=hp.uniform("alpha", 0.0, 10.0),
    algo=tpe.suggest,
    max_evals=8,
    trials=SparkTrials(parallelism=8,spark_session=spark))
  return best["alpha"]

data_small = gen_data(10 * 1024 * 1024)  # ~10MB

def objective_small(alpha):
  # For small data, you might reference it directly.
  return train_and_eval(data_small, alpha)

tune_alpha(objective_small)

並列処理 (8) は、現在の Spark タスクスロットの合計 (1) を超えています。動的割り当てが有効になっている場合は、より多くのエグゼキューターが割り当てられることがあります。

apache-spark - 個々のマシンで pyspark を使用してタスク スロットを設定する

1 に答える 1

Related

Reference

apache-spark - 個々のマシンで pyspark を使用してタスクスロットを設定する