“apache-spark-ml”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

691 参照

java - Spark ML パイプライン API の保存が機能しない

バージョン 1.6 では、パイプライン API に、パイプラインステージを保存およびロードするための新しい機能セットが追加されました。分類子をトレーニングした後、ステージをディスクに保存しようとしましたが、後で再度ロードして再利用し、モデルを計算する手間を省きました。

モデルを保存すると、何らかの理由でディレクトリにメタデータディレクトリしか含まれません。再度ロードしようとすると、次の例外が発生します。

スレッド「メイン」の例外 java.lang.UnsupportedOperationException: org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1330) の空のコレクション org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:150) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) at org.apache.spark.rdd.RDD.withScope(RDD.scala:316) at org .apache.spark.rdd.RDD.first(RDD.scala:1327) at org.apache.spark.ml.util.DefaultParamsReader$.loadMetadata(ReadWrite.scala:284) at org.apache.spark.ml.tuning. CrossValidator$SharedReadWrite$.load(CrossValidator.scala:287) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader.load(CrossValidator.scala:393) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader .load(CrossValidator.scala:384) で org.apache.spark.ml.util.MLReadable$class.load(ReadWrite.scala:176) で org.apache.spark.ml.tuning.CrossValidatorModel$.load(CrossValidator.scala:368) でorg.test.categoryminer.spark.SparkTextClassifierModelCache.get(SparkTextClassifierModelCache.java:34) の org.apache.spark.ml.tuning.CrossValidatorModel.load(CrossValidator.scala)

私が使用するモデルを保存するには：crossValidatorModel.save("/tmp/my.model")

それをロードするには、次を使用します。CrossValidatorModel.load("/tmp/my.model")

CrossValidator オブジェクトで fit(dataframe) を呼び出したときに取得した CrossValidatorModel オブジェクトで save を呼び出します。

メタデータディレクトリのみを保存する理由はありますか?

2016-01-11T23:13:22.417

0 投票する

1 に答える

932 参照

apache-spark-mllib - Spark Mlib 多層パーセプトロン重み配列の使用方法

ANN 実装で使用される属性の相対的な重要性を見つける必要があるという要件があります。実装には Spark MLib ライブラリの MultiLayerPerceptron を使用します。モデルは、重みの配列であるベクトルを提供します。weights から相対的な重要度を導出するアルゴリズムがあることは知っていますが、MLib 実装は大きな 1 次元配列を提供し、各入力に対応する重みについては何も伝えません。各入力ノードに対応する重みを取得する方法を知っている人はいますか?

apache-spark-mllib apache-spark-ml

2016-01-13T17:53:56.873

0 投票する

1 に答える

769 参照

apache-spark - ランダムフォレストを使用した Spark プロセスデータフレーム

Spark 1.5.1への回答である MLLib Random Forest Probabilityを使用して、を使用してランダムフォレストをトレーニングし、トレーニングされたランダムフォレストでホールドアウトデータフレームを処理することができましml.classification.RandomForestClassifierた。

私が抱えている問題は、このトレーニングされたランダムフォレストを保存して、将来 (トレーニングセットと同じ機能を持つ) データフレームを処理したいということです。

このページの分類例ではを使用しmllib.tree.model.RandomForestModelて、トレーニング済みのフォレストを保存する方法を示していますが、私の理解では、LabeledPointRDD でのみトレーニング (および将来的に処理) できます。私が RDD で抱えている問題LabeledPointは、これにはラベル double と特徴ベクトルのみを含めることができるため、他の目的に必要な非ラベル/非特徴列がすべて失われることです。

ml.classification.RandomForestClassifieしたがって、 rの結果を保存するかLabeledPoint、ラベル以外の列を保持できる RDD を構築し、フォレストでトレーニングされたフォレストに必要な機能を構築する方法が必要だと思いますmllib.tree.model.RandomForestModel。

ML ライブラリと MLlib ライブラリの 1 つだけではなく両方が存在する理由を知っている人はいますか?

私の質問を読んでくれてありがとう。解決策や提案を事前にありがとう。

apache-spark apache-spark-sql apache-spark-mllib random-forest apache-spark-ml

2016-01-24T18:21:11.637

0 投票する

1 に答える

907 参照

apache-spark - pyspark ml の推奨事項 - すべての推奨事項

ハイ、

私は Spark が初めてで、ML 推奨事項を使用しようとしています。

マイコード

すべての映画のすべてのユーザーに 2 つのおすすめを取得するにはどうすればよいですか?

ありがとう。

apache-spark pyspark apache-spark-ml

2016-02-01T14:15:43.797

0 投票する

2 に答える

973 参照

apache-spark - データソースのクラスを読み込めませんでした: Spark ML pyspark/scala の Libsvm

を使用して pyspark/scala に libsvm ファイルをインポートしようとすると"sqlContext.read.format("libsvm").load"、次のエラーが発生します -

「データソースのクラスを読み込めませんでした: Libsvm。」

同時に、私が使用すると、"MLUtils.loadLibSVMFile"完全に正常に動作します。Spark ML(クラス確率を取得するため) とMLlib評価の両方を使用する必要があります。エラーのスクリーンショットを添付しました。

これは MapR クラスターです。Spark バージョン 1.5.2 エラー

apache-spark pyspark mapr apache-spark-mllib apache-spark-ml

2016-02-02T15:09:21.913

0 投票する

1 に答える

1929 参照

python - pyspark は、データフレームの行番号を持つ新しい列フィールドを追加します

こんにちは、Spark でレコメンデーションシステムを構築しようとしています

ユーザーのメールと映画の評価を含むデータフレームがあります。

私の最初の疑いは、pySpark MLlib が電子メールを受け入れないことです。私は正しいですか? これは、主キーでメールを変更する必要があるためです。

私のアプローチは、一時テーブルを作成し、個別のユーザーを選択して、行番号を持つ新しい列を追加することでした(この番号は各ユーザーの主キーになります.

私が持っているもの

私が欲しいもの

次に結合を行い、MLlib で使用する最終的なデータフレームを取得します。

お時間をいただきありがとうございます。

python apache-spark pyspark apache-spark-mllib apache-spark-ml

2016-02-03T10:40:00.337

0 投票する

3 に答える

5077 参照

scala - UDF からカスタム Transformer を作成する方法は?

カスタムステージでパイプラインを作成して保存しようとしていました。を使用して、columnを myに追加する必要があります。したがって、または同様のアクションを?に変換できるかどうか疑問に思っていました。DataFrameUDFUDFTransformer

私のカスタムは次のようになります。カスタムとしてUDFを使用してそれを行う方法を学びたいと思います。UDFTransformer

scala apache-spark apache-spark-sql user-defined-functions apache-spark-ml

2016-02-03T15:03:48.603

問題タブ [apache-spark-ml]

Reference