問題タブ [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5018 参照

scala - Spark ML ランダム フォレストからクラスに対応する確率を取得する方法

機械学習タスクに org.apache.spark.ml.Pipeline を使用しています。予測されたラベルだけでなく、実際の確率を知ることが特に重要であり、私はそれを得るのに苦労しています. ここでは、ランダム フォレストを使用してバイナリ分類タスクを実行しています。クラスのラベルは「はい」と「いいえ」です。ラベル「はい」の確率を出力したいと思います。確率はパイプライン出力として [0.69, 0.31] のように DenseVector に格納されますが、どちらが「はい」に対応するのかわかりません (0.69 か 0.31 か?)。labelIndexer から取得する方法が必要だと思いますか?

モデルをトレーニングするための私のタスクコードは次のとおりです

次に、パイプラインをロードし、新しいデータで予測を行います。コード部分は次のとおりです。

RF の確率とラベルに関する参照: http://spark.apache.org/docs/latest/ml-classification-regression.html#random-forests

0 投票する
1 に答える
1138 参照

scala - Apache Spark ジョブ/アプリケーションの実行時間の短縮

CSV ファイル (1 行のデータ) を読み取り、事前に構築されたランダム フォレスト モデル オブジェクトを使用して予測を行う単純なスパーク ジョブを実装しようとしています。このジョブには、データの前処理やデータ操作は含まれていません。

アプリケーションをローカルで実行して、スタンドアロン モードで spark を実行しています。構成は次のとおりです。 RAM: 8GB メモリ: 40GB コア数: 2 Spark バージョン: 1.5.2 Scala バージョン: 2.10.5 入力ファイル サイズ: 1KB (1 行のデータ) モデル ファイル サイズ: 1,595 KB (400 ツリー)ランダムフォレスト)

現在、spark-submit での実装には約 13 秒かかります。ただし、実行時間はこのアプリケーションにとって大きな懸念事項であるため、

  1. 実行時間を 1 秒または 2 秒に短縮するためにコードを最適化する方法はありますか? (優先度高)

  2. 起動とコンテキストの設定に約 5 ~ 6 秒かかるのに対し、実際のコードの実行には約 7 ~ 8 秒かかることに気付きました。

アプリケーションコードはこちら

0 投票する
1 に答える
664 参照

apache-spark - GBTClassifier を Spark 1.6 に保存することはできますか?

Pipeline 抽象化を使用して Spark 1.6 で GBTClassifier をトレーニングしましたが、それを保存する方法について少し混乱しています。

私が行った場合:

私は得る:

私が行った場合:

私は得る:

この解決策をテストしますが、別の方法で解決できるかどうか疑問に思います。 Spark ML パイプライン API の保存が機能しない

0 投票する
2 に答える
17545 参照

python - SparkMlib のいくつかのカテゴリ列に OneHotEncoder を適用する

いくつかのカテゴリ機能があり、それらをすべて を使用して変換したいと考えていますOneHotEncoder。ただし、を適用しようとするとStringIndexer、エラーが発生します。

0 投票する
1 に答える
10703 参照

python - Spark データ フレーム列を StandardScaler() の密なベクターに変換 "列は org.apache.spark.ml.linalg.VectorUDT 型である必要があります"

私は Spark が初めてで、StandardScaler() を DataFrame の列に適用しようとしています。

問題は、このように適用するとエラーが発生することです。

requirement failed: Input column DF_column must be a vector column.

UDF を使用してみましたが、まだ機能しません。

LIBSVM の例を実行しましたが、TXT ファイルが機能をベクトルとしてロードしているので簡単です。

0 投票する
1 に答える
434 参照

scala - Spark での特徴選択後に、テスト データの特徴をトレーニング データと同じにする

私はScalaに取り組んでいます。大きな質問があります。ChiSqSelector は次元を正常に削減しているようですが、どの機能が削減され、どの機能が残っているかを特定できません。どの機能が削減されたかを知るにはどうすればよいですか?

PS: テスト データを機能選択された列車データと同じにしたいとき、scala でそれを行う方法がわからないことがわかりました。