問題タブ [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
15828 参照

python - PythonでSpark DataFrameからlabeledPointsを作成する

sparkデータフレームから.map()一連のを作成するために使用するpythonの関数は何ですか? labeledPointsラベル/結果が最初の列ではないが、その列名「ステータス」を参照できる場合の表記法は?

この .map() 関数を使用して Python データフレームを作成します。

reduce 関数がすべての Pandas データフレームを再結合した後、Spark データフレームに変換します。

labledPointsしかし、これからPython でどのように作成すればよいでしょうか? 私はそれが別の.map()機能であると思いますか?

0 投票する
3 に答える
1613 参照

scala - ML Pileline ロジスティック回帰によって生成された予測確率を分割する方法

ML パイプラインと DataFrame API を使用して、ロジスティック モデルから予測確率を抽出しようとしています。予測確率の出力は、以下に示すように、各クラス (0, 1) の予測確率を格納する列ベクトルです。クラス 1 の確率だけを抽出するにはどうすればよいでしょうか。ありがとうございます。

prob
"[0.13293408418007766,0.8670659158199223]"
"[0.1335112097146626,0.8664887902853374]"

0 投票する
1 に答える
16612 参照

python - Spark ML / pyspark でプログラムによって特徴ベクトルを作成する

複数の数値列に機能がある場合、pyspark の DataFrame で ML (KMeans など) を実行する簡潔な方法があるかどうか疑問に思っています。

つまり、Irisデータセットのように:

新しい列として手動で追加された特徴ベクトルを使用して DataSet を再作成せずに KMeans を使用し、コードで繰り返しハードコードされた元の列を使用したいと思います。

改善したい解決策:

次のような解決策を探しています。

0 投票する
1 に答える
2889 参照

apache-spark - mllib でトレーニング データを準備する方法

TL;DR; mllibツイートに対する予測のためにウィキ データ (テキストとカテゴリ) をトレーニングするに はどうすればよいですか?

トークン化された wiki データを変換して、 または のいずれかでトレーニングできるようにする方法がわかりませNaiveBayesLogisticRegression。私の目標は、訓練されたモデルをツイートと比較するために使用することです*。LR と for でパイプラインを使用してみましHashingTFIDFNaiveBayes、間違った予測を続けています。これが私が試したことです:

*ラベルにウィキ データの多くのカテゴリを使用したいことに注意してください...二項分類しか見たことがありません (あるカテゴリか別のカテゴリか)...自分のやりたいことを行うことは可能ですか?

パイプライン w LR

単純ベイズ

0 投票する
0 に答える
2340 参照

python - クロス検証を使用した PySpark パイプラインのカスタム トランスフォーマー

hereで説明されているようなカスタム トランスフォーマーを作成しました。

最初のステップとしてトランスフォーマーを使用してパイプラインを作成すると、分類のために (ロジスティック回帰) モデルをトレーニングできます。

ただし、次のようにこのパイプラインでクロス検証を実行したい場合:

次のエラーが表示されます。

そして Python スタックトレース:

このエラーを回避するには、事前にデータ フレームを変換します。つまり、トランスフォーマーをパイプラインの外に移動します。しかし、すべてのステップを処理パイプライン内に保持したいので、前のステップなしで目に見えないデータを分類するときに使用でき、特徴抽出パラメーターを調整することもできます。そのため、どんな助けでも大歓迎です。

0 投票する
10 に答える
23673 参照

scala - Spark DataFrame からネストされた列を削除する

私はDataFrameスキーマを持っています

一方、使用してデータフレームをフィルタリングできます

を使用して列を削除できません

ここで私が間違っていることはありますか?drop(rawData("features.feat1"))あまり意味がありませんが、私も(失敗して)やろうとしました。

前もって感謝します、

ニキル

0 投票する
3 に答える
9271 参照

apache-spark - SparseVector 列を持つ RDD をベクトルとして列を持つ DataFrame に変換するにはどうすればよいですか

値のタプル (String、SparseVector)を持つRDDがあり、 RDDを使用してDataFrameを作成したいと考えています。ほとんどの ml アルゴリズムのライブラリで必要なスキーマである (label:string, features:vector) DataFrameを取得します。HashingTF ml Library は、 DataFrameの features 列が指定されたときにベクトルを出力するため、実行できることはわかってい ます。

だから私の質問は、どうにかして (String, SparseVector) のRDDを (String, vector) のDataFrameに変換できるかということです。私はいつものように試しましたが、私が持っているニーズに合ったDataTypesqlContext.createDataFrameはありません。

0 投票する
1 に答える
3021 参照

scala - Spark MLlib の例、NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()

ドキュメントの例に従っています例: 推定器、変換器、およびパラメータ

そして、エラーメッセージが表示されました

15/09/23 11:46:51 INFO BlockManagerMaster: スレッド「メイン」で BlockManager 例外を登録しました java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/ JavaUniverse$JavaMirror; SimpleApp$.main(hw.scala:75) で

75行目はコード「sqlContext.createDataFrame()」です。

そして、私のsbtは以下のようなものです:

私は周りを検索しようとし、私の問題に非常に似ているこの投稿を見つけました.sbt設定をsparkバージョン(spark-mllib_2.11から2.10に、spark-1.4.1から1.5.0)に変更しようとしましたが、さらに依存関係の競合が発生しました。

私の直感では、それはバージョンの問題ですが、自分でそれを理解することはできません.誰か助けてもらえますか? どうもありがとう。