問題タブ [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1321 参照

scala - spark.mlでパイプラインモデルを逆シリアル化するには?

多数の Transformer (org.apache.spark.ml.Transformer) といくつかのロジスティック回帰学習器 (org.apache.spark.ml.classification.LogisticRegression) で構成される Spark ML パイプライン モデルをシリアル化しました。モデルを作成した Windows マシンではすべて正常に動作します。java.io.ObjectOutputStream を使用してモデルをディスクにシリアライズし、java.io.ObjectInputStream を使用して読み戻しました。

sbt と対応する単体テストを介してすべて正常に動作します。ただし、コードを jar にアセンブルし、サーバーの Spark シェルで同じコードを実行しようとすると、(最初の) トランスフォーマーで ClassNotFoundException が発生します。スタック トレースは以下に含まれています。

table を登録するときに、これは SparkSQL MissingRequirementError に関連している可能性があると考えたため、build.sbt ファイルで fork := true を使用していますが、それは役に立たなかったようです。

また、jar ファイルからモデルをロードしようとしても、ディスクから直接モデルをロードしようとしても、違いはありません (以下を参照)。

パイプラインをデシリアライズするには?

0 投票する
2 に答える
14528 参照

scala - Spark マルチクラス分類の例

Spark のマルチクラス分類の例がどこにあるか知っていますか。私は本やウェブでの検索に多くの時間を費やしましたが、これまでのところ、ドキュメントによると最新バージョンから可能であることを知っています.

0 投票する
1 に答える
4241 参照

apache-spark - Spark Pipeline で RandomForest を使用する方法

モデルをグリッド検索で調整し、spark で相互検証したいと考えています。Spark では、基本モデルをパイプラインに配置する必要があります。パイプラインのオフィス デモではLogistictRegression、オブジェクトとして新しい可能性のある基本モデルとして使用します。ただし、クライアントコードでRandomForestモデルを新規RandomForest作成することはできないため、パイプライン API では使用できないようです。ホイールを再作成したくないので、誰かアドバイスをいただけますか?ありがとう

0 投票する
5 に答える
56624 参照

apache-spark - spark-mlでカテゴリ機能を処理するには?

spark-ml を使用してカテゴリ データを処理するに はどうすればよいspark-mllibですか?

ドキュメンテーションはあまり明確ではありませんが、 、 などの分類器RandomForestClassifierLogisticRegressionは、featuresColの機能の列の名前を指定DataFrameするlabelCol引数と、 のラベル付きクラスの列の名前を指定する引数があるようDataFrameです。

明らかに、予測に複数の機能を使用したいので、 を使用して、VectorAssemblerすべての機能を の下の単一のベクトルに配置しようとしましたfeaturesCol

ただし、VectorAssembler数値型、ブール型、およびベクトル型 (Spark Web サイトによる) のみを受け入れるため、機能ベクトルに文字列を入れることはできません。

どのように進めればよいですか?

0 投票する
3 に答える
11554 参照

java - モデルを ML Pipeline から S3 または HDFS に保存する方法は?

ML Pipeline によって生成された何千ものモデルを保存しようとしています。こちらの回答に示されているように、モデルは次のように保存できます。

最終的にモデルを amazon s3 に保存したいので、 を使用s3://some/path/$nameしてみ/user/hadoop/some/path/$nameましたが、どちらもパスが見つからないことを示すメッセージで失敗します。

モデルを Amazon S3 に保存する方法は?

0 投票する
1 に答える
21433 参照

python - PySpark ML でカスタム Transformer を作成する

Spark SQL DataFrames とその ML (PySpark) は初めてです。たとえば、ストップワードを削除し、からいくつかのライブラリを使用するカスタムトークナイザーを作成するにはどうすればよいですか? デフォルトのものを拡張できますか?

0 投票する
1 に答える
2301 参照

scala - ML アルゴリズムの DataFrame 列をベクトル化する方法は?

いくつかのカテゴリ文字列値 (uuid|url|browser など) を持つ DataFrame があります。

double 行列を受け入れる ML アルゴリズムを実行するために double に変換します。

変換方法として、文字列値を double 値にマップする StringIndexer (spark 1.4) を使用したので、次のような関数を定義しました。

問題は、df の foreach 列を反復処理し、この関数を呼び出して、解析された double 列に元の文字列列を追加 (または変換) することです。結果は次のようになります。

初期自由度:

最終DF:

前もって感謝します