問題タブ [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
691 参照

java - Spark ML パイプライン API の保存が機能しない

バージョン 1.6 では、パイプライン API に、パイプライン ステージを保存およびロードするための新しい機能セットが追加されました。分類子をトレーニングした後、ステージをディスクに保存しようとしましたが、後で再度ロードして再利用し、モデルを計算する手間を省きました。

モデルを保存すると、何らかの理由でディレクトリにメタデータ ディレクトリしか含まれません。再度ロードしようとすると、次の例外が発生します。

スレッド「メイン」の例外 java.lang.UnsupportedOperationException: org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1330) の空のコレクション org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:150) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) at org.apache.spark.rdd.RDD.withScope(RDD.scala:316) at org .apache.spark.rdd.RDD.first(RDD.scala:1327) at org.apache.spark.ml.util.DefaultParamsReader$.loadMetadata(ReadWrite.scala:284) at org.apache.spark.ml.tuning. CrossValidator$SharedReadWrite$.load(CrossValidator.scala:287) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader.load(CrossValidator.scala:393) at org.apache.spark.ml.tuning.CrossValidatorModel$CrossValidatorModelReader .load(CrossValidator.scala:384) で org.apache.spark.ml.util.MLReadable$class.load(ReadWrite.scala:176) で org.apache.spark.ml.tuning.CrossValidatorModel$.load(CrossValidator.scala:368) でorg.test.categoryminer.spark.SparkTextClassifierModelCache.get(SparkTextClassifierModelCache.java:34) の org.apache.spark.ml.tuning.CrossValidatorModel.load(CrossValidator.scala)

私が使用するモデルを保存するには:crossValidatorModel.save("/tmp/my.model")

それをロードするには、次を使用します。CrossValidatorModel.load("/tmp/my.model")

CrossValidator オブジェクトで fit(dataframe) を呼び出したときに取得した CrossValidatorModel オブジェクトで save を呼び出します。

メタデータディレクトリのみを保存する理由はありますか?

0 投票する
1 に答える
932 参照

apache-spark-mllib - Spark Mlib 多層パーセプトロン重み配列の使用方法

ANN 実装で使用される属性の相対的な重要性を見つける必要があるという要件があります。実装には Spark MLib ライブラリの MultiLayerPerceptron を使用します。モデルは、重みの配列であるベクトルを提供します。weights から相対的な重要度を導出するアルゴリズムがあることは知っていますが、MLib 実装は大きな 1 次元配列を提供し、各入力に対応する重みについては何も伝えません。各入力ノードに対応する重みを取得する方法を知っている人はいますか?

0 投票する
1 に答える
769 参照

apache-spark - ランダム フォレストを使用した Spark プロセス データフレーム

Spark 1.5.1への回答 である MLLib Random Forest Probabilityを使用して、 を使用してランダム フォレストをトレーニングし、トレーニングされたランダム フォレストでホールドアウト データフレームを処理することができましml.classification.RandomForestClassifierた。

私が抱えている問題は、このトレーニングされたランダム フォレストを保存して、将来 (トレーニング セットと同じ機能を持つ) データフレームを処理したいということです。

このページの分類例では を使用しmllib.tree.model.RandomForestModelて、トレーニング済みのフォレストを保存する方法を示していますが、私の理解では、LabeledPointRDD でのみトレーニング (および将来的に処理) できます。私が RDD で抱えている問題LabeledPointは、これにはラベル double と特徴ベクトルのみを含めることができるため、他の目的に必要な非ラベル/非特徴列がすべて失われることです。

ml.classification.RandomForestClassifieしたがって、 rの結果を保存するかLabeledPoint、ラベル以外の列を保持できる RDD を構築し、フォレストでトレーニングされたフォレストに必要な機能を構築する方法が必要だと思いますmllib.tree.model.RandomForestModel

ML ライブラリと MLlib ライブラリの 1 つだけではなく両方が存在する理由を知っている人はいますか?

私の質問を読んでくれてありがとう。解決策や提案を事前にありがとう。

0 投票する
1 に答える
907 参照

apache-spark - pyspark ml の推奨事項 - すべての推奨事項

ハイ、

私は Spark が初めてで、ML 推奨事項を使用しようとしています。

マイコード

すべての映画のすべてのユーザーに 2 つのおすすめを取得するにはどうすればよいですか?

ありがとう。

0 投票する
2 に答える
973 参照

apache-spark - データ ソースのクラスを読み込めませんでした: Spark ML pyspark/scala の Libsvm

を使用して pyspark/scala に libsvm ファイルをインポートしようとすると"sqlContext.read.format("libsvm").load"、次のエラーが発生します -

「データ ソースのクラスを読み込めませんでした: Libsvm。」

同時に、私が使用すると、"MLUtils.loadLibSVMFile"完全に正常に動作します。Spark ML(クラス確率を取得するため) とMLlib評価の両方を使用する必要があります。エラーのスクリーンショットを添付しました。

これは MapR クラスターです。Spark バージョン 1.5.2 エラー

0 投票する
1 に答える
1929 参照

python - pyspark は、データ フレームの行番号を持つ新しい列フィールドを追加します

こんにちは、Spark でレコメンデーション システムを構築しようとしています

ユーザーのメールと映画の評価を含むデータ フレームがあります。

私の最初の疑いは、pySpark MLlib が電子メールを受け入れないことです。私は正しいですか? これは、主キーでメールを変更する必要があるためです。

私のアプローチは、一時テーブルを作成し、個別のユーザーを選択して、行番号を持つ新しい列を追加することでした(この番号は各ユーザーの主キーになります.

私が持っているもの

私が欲しいもの

次に結合を行い、MLlib で使用する最終的なデータ フレームを取得します。

お時間をいただきありがとうございます。

0 投票する
3 に答える
5077 参照

scala - UDF からカスタム Transformer を作成する方法は?

カスタムステージでパイプラインを作成して保存しようとしていました。を使用して、columnを myに追加する必要があります。したがって、または同様のアクションを?に変換できるかどうか疑問に思っていました。DataFrameUDFUDFTransformer

私のカスタムは次のようになります。カスタムとしてUDFを使用してそれを行う方法を学びたいと思います。UDFTransformer