問題タブ [apache-spark-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - StringIndexer を使用せずに Spark ML でバイナリ分類を行う方法
私の機能は既に (0.0; 1.0) としてインデックス付けされているため、StringIndexer を使用せずにパイプラインで Spark ML DecisionTreeClassifier を使用しようとしています。ラベルとしての DecisionTreeClassifier には double 値が必要なため、次のコードが機能するはずです。
しかし、実際には私は得る
もちろん、StringIndexer を配置して、二重の「ラベル」フィールドで動作させることもできますが、DecisionTreeClassifier の出力 rawPrediction 列を操作して、各行の 0.0 と 1.0 の確率を取得したい...
StringIndexer を Pipeline に配置すると、入力ラベル "0.0" および "1.0" のインデックスが rawPrediction ベクトルでわかりません。これは、String インデクサーが値の頻度によってインデックスを作成するためです。これは変動する可能性があります。
StringIndexer を使用せずに DecisionTreeClassifier のデータを準備するのを手伝ってください。または、各行の元のラベル (0.0; 1.0) の確率を取得する別の方法を提案してください。
apache-spark - Spark データフレームを RDD に変換して単語の袋を取得するにはどうすればよいですか
article というデータフレームがあります
平らにして言葉の袋にしたい。現在の状況を使用してこれをどのように達成できますか。以下のコードを試してみましたが、タイプの不一致の問題が発生しているようです。
最終的には、この bow_corpus を使用して word2vec モデルをトレーニングしたいと考えています。
ありがとう
java - MultilayerPerceptronClassifierから分類確率を取得するには?
これは、spark.mllib の分類モデルでインスタンスごとの確率を取得する方法に最も関連しているようです。
Spark ml で分類タスクを実行し、MultilayerPerceptronClassifier を構築しています。モデルを構築すると、入力ベクトルを指定して予測クラスを取得できますが、各出力クラスの確率を取得できません。上記のリストは、NaiveBayesModel が Spark 1.5.0 の時点でこの機能をサポートしていることを示しています(predictProbabilities メソッドを使用)。MLPC のこの機能を取得したいと思います。ハッキングして確率を得る方法はありますか?1.6.2 に含まれますか?
apache-spark - DataFrames/SparkContextなしでspark.mlモデルを評価するには?
Spark MLLib を使用して、モデル (のようなRandomForest
) を構築すると、モデルをロードしてpredict
機能のベクトルを渡すことで、Spark の外部でモデルを評価することができました。
Spark ML のように見えpredict
ますが、現在呼び出されtransform
、 でのみ動作しDataFrame
ます。
DataFrame
DataFrame を構築するには SparkContext が必要なように思われるため、Spark の外部で構築する方法はありますか?
何か不足していますか?
scala - Spark StringIndexer での NULL 値の処理
いくつかのカテゴリ文字列列を含むデータセットがあり、それらを double 型で表現したいと考えています。この変換に StringIndexer を使用しましたが、機能しますが、NULL 値を持つ別のデータセットで試してみると、java.lang.NullPointerException
エラーが発生して機能しませんでした。
理解を深めるために、私のコードは次のとおりです。
では、StringIndexer を使用してこの NULL データの問題を解決するにはどうすればよいでしょうか?
または、NULL 値を持つ文字列型のカテゴリ データを double に変換するためのより良い解決策はありますか?
scala - パイプライン後に変数名を機能にマップする方法
LogisticRegression を実際にトレーニングするように、OneHotEncoder の例を変更しました。私の質問は、生成された重みをカテゴリ変数にマッピングする方法ですか?
出力
重み: [1.5098946631236487,-5.509833649232324,1.5098946631236487,1.5098946631236487,-5.509833649232324] 切片: 2.6679020381781235