問題タブ [apache-spark-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - spark.mlでパイプラインモデルを逆シリアル化するには?
多数の Transformer (org.apache.spark.ml.Transformer) といくつかのロジスティック回帰学習器 (org.apache.spark.ml.classification.LogisticRegression) で構成される Spark ML パイプライン モデルをシリアル化しました。モデルを作成した Windows マシンではすべて正常に動作します。java.io.ObjectOutputStream を使用してモデルをディスクにシリアライズし、java.io.ObjectInputStream を使用して読み戻しました。
sbt と対応する単体テストを介してすべて正常に動作します。ただし、コードを jar にアセンブルし、サーバーの Spark シェルで同じコードを実行しようとすると、(最初の) トランスフォーマーで ClassNotFoundException が発生します。スタック トレースは以下に含まれています。
table を登録するときに、これは SparkSQL MissingRequirementError に関連している可能性があると考えたため、build.sbt ファイルで fork := true を使用していますが、それは役に立たなかったようです。
また、jar ファイルからモデルをロードしようとしても、ディスクから直接モデルをロードしようとしても、違いはありません (以下を参照)。
パイプラインをデシリアライズするには?
scala - Spark マルチクラス分類の例
Spark のマルチクラス分類の例がどこにあるか知っていますか。私は本やウェブでの検索に多くの時間を費やしましたが、これまでのところ、ドキュメントによると最新バージョンから可能であることを知っています.
apache-spark - Spark Pipeline で RandomForest を使用する方法
モデルをグリッド検索で調整し、spark で相互検証したいと考えています。Spark では、基本モデルをパイプラインに配置する必要があります。パイプラインのオフィス デモではLogistictRegression
、オブジェクトとして新しい可能性のある基本モデルとして使用します。ただし、クライアントコードでRandomForest
モデルを新規RandomForest
作成することはできないため、パイプライン API では使用できないようです。ホイールを再作成したくないので、誰かアドバイスをいただけますか?ありがとう
apache-spark - spark-mlでカテゴリ機能を処理するには?
spark-ml
を使用してカテゴリ データを処理するに はどうすればよいspark-mllib
ですか?
ドキュメンテーションはあまり明確ではありませんが、 、 などの分類器RandomForestClassifier
にLogisticRegression
は、featuresCol
の機能の列の名前を指定DataFrame
するlabelCol
引数と、 のラベル付きクラスの列の名前を指定する引数があるようDataFrame
です。
明らかに、予測に複数の機能を使用したいので、 を使用して、VectorAssembler
すべての機能を の下の単一のベクトルに配置しようとしましたfeaturesCol
。
ただし、VectorAssembler
数値型、ブール型、およびベクトル型 (Spark Web サイトによる) のみを受け入れるため、機能ベクトルに文字列を入れることはできません。
どのように進めればよいですか?
java - モデルを ML Pipeline から S3 または HDFS に保存する方法は?
ML Pipeline によって生成された何千ものモデルを保存しようとしています。こちらの回答に示されているように、モデルは次のように保存できます。
最終的にモデルを amazon s3 に保存したいので、 を使用s3://some/path/$name
してみ/user/hadoop/some/path/$name
ましたが、どちらもパスが見つからないことを示すメッセージで失敗します。
モデルを Amazon S3 に保存する方法は?
python - PySpark ML でカスタム Transformer を作成する
Spark SQL DataFrames とその ML (PySpark) は初めてです。たとえば、ストップワードを削除し、nltkからいくつかのライブラリを使用するカスタムトークナイザーを作成するにはどうすればよいですか? デフォルトのものを拡張できますか?
scala - ML アルゴリズムの DataFrame 列をベクトル化する方法は?
いくつかのカテゴリ文字列値 (uuid|url|browser など) を持つ DataFrame があります。
double 行列を受け入れる ML アルゴリズムを実行するために double に変換します。
変換方法として、文字列値を double 値にマップする StringIndexer (spark 1.4) を使用したので、次のような関数を定義しました。
問題は、df の foreach 列を反復処理し、この関数を呼び出して、解析された double 列に元の文字列列を追加 (または変換) することです。結果は次のようになります。
初期自由度:
最終DF:
前もって感謝します