“apache-spark-ml”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

15828 参照

python - PythonでSpark DataFrameからlabeledPointsを作成する

sparkデータフレームから.map()一連のを作成するために使用するpythonの関数は何ですか? labeledPointsラベル/結果が最初の列ではないが、その列名「ステータス」を参照できる場合の表記法は?

この .map() 関数を使用して Python データフレームを作成します。

reduce 関数がすべての Pandas データフレームを再結合した後、Spark データフレームに変換します。

labledPointsしかし、これからPython でどのように作成すればよいでしょうか? 私はそれが別の.map()機能であると思いますか？

2015-09-14T01:29:26.260

0 投票する

3 に答える

1613 参照

scala - ML Pileline ロジスティック回帰によって生成された予測確率を分割する方法

ML パイプラインと DataFrame API を使用して、ロジスティックモデルから予測確率を抽出しようとしています。予測確率の出力は、以下に示すように、各クラス (0, 1) の予測確率を格納する列ベクトルです。クラス 1 の確率だけを抽出するにはどうすればよいでしょうか。ありがとうございます。

prob
"[0.13293408418007766,0.8670659158199223]"
"[0.1335112097146626,0.8664887902853374]"

scala apache-spark apache-spark-ml

2015-09-14T17:48:10.307

0 投票する

1 に答える

16612 参照

python - Spark ML / pyspark でプログラムによって特徴ベクトルを作成する

複数の数値列に機能がある場合、pyspark の DataFrame で ML (KMeans など) を実行する簡潔な方法があるかどうか疑問に思っています。

つまり、Irisデータセットのように:

新しい列として手動で追加された特徴ベクトルを使用して DataSet を再作成せずに KMeans を使用し、コードで繰り返しハードコードされた元の列を使用したいと思います。

改善したい解決策：

次のような解決策を探しています。

python apache-spark pyspark apache-spark-ml

2015-09-16T10:39:53.417

0 投票する

1 に答える

2889 参照

apache-spark - mllib でトレーニングデータを準備する方法

TL;DR; mllibツイートに対する予測のためにウィキデータ (テキストとカテゴリ) をトレーニングするにはどうすればよいですか?

トークン化された wiki データを変換して、またはのいずれかでトレーニングできるようにする方法がわかりませNaiveBayesんLogisticRegression。私の目標は、訓練されたモデルをツイートと比較するために使用することです*。LR と for でパイプラインを使用してみましHashingTFたIDFがNaiveBayes、間違った予測を続けています。これが私が試したことです：

*ラベルにウィキデータの多くのカテゴリを使用したいことに注意してください...二項分類しか見たことがありません (あるカテゴリか別のカテゴリか)...自分のやりたいことを行うことは可能ですか?

パイプライン w LR

単純ベイズ

apache-spark apache-spark-mllib apache-spark-ml

2015-09-19T19:49:31.633

0 投票する

0 に答える

2340 参照

python - クロス検証を使用した PySpark パイプラインのカスタムトランスフォーマー

hereで説明されているようなカスタムトランスフォーマーを作成しました。

最初のステップとしてトランスフォーマーを使用してパイプラインを作成すると、分類のために (ロジスティック回帰) モデルをトレーニングできます。

ただし、次のようにこのパイプラインでクロス検証を実行したい場合:

次のエラーが表示されます。

そして Python スタックトレース:

このエラーを回避するには、事前にデータフレームを変換します。つまり、トランスフォーマーをパイプラインの外に移動します。しかし、すべてのステップを処理パイプライン内に保持したいので、前のステップなしで目に見えないデータを分類するときに使用でき、特徴抽出パラメーターを調整することもできます。そのため、どんな助けでも大歓迎です。

python apache-spark pyspark apache-spark-1.4 apache-spark-ml

2015-09-22T10:44:13.183

0 投票する

10 に答える

23673 参照

scala - Spark DataFrame からネストされた列を削除する

私はDataFrameスキーマを持っています

一方、使用してデータフレームをフィルタリングできます

を使用して列を削除できません

ここで私が間違っていることはありますか？drop(rawData("features.feat1"))あまり意味がありませんが、私も（失敗して）やろうとしました。

前もって感謝します、

ニキル

scala apache-spark dataframe apache-spark-sql apache-spark-ml

2015-09-22T21:30:04.153

0 投票する

3 に答える

9271 参照

apache-spark - SparseVector 列を持つ RDD をベクトルとして列を持つ DataFrame に変換するにはどうすればよいですか

値のタプル (String、SparseVector)を持つRDDがあり、 RDDを使用してDataFrameを作成したいと考えています。ほとんどの ml アルゴリズムのライブラリで必要なスキーマである (label:string, features:vector) DataFrameを取得します。HashingTF ml Library は、 DataFrameの features 列が指定されたときにベクトルを出力するため、実行できることはわかっています。

だから私の質問は、どうにかして (String, SparseVector) のRDDを (String, vector) のDataFrameに変換できるかということです。私はいつものように試しましたが、私が持っているニーズに合ったDataTypesqlContext.createDataFrameはありません。

apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml

2015-09-23T16:47:51.810

0 投票する

1 に答える

3021 参照

scala - Spark MLlib の例、NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()

ドキュメントの例に従っています例: 推定器、変換器、およびパラメータ

そして、エラーメッセージが表示されました

15/09/23 11:46:51 INFO BlockManagerMaster: スレッド「メイン」で BlockManager 例外を登録しました java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/ JavaUniverse$JavaMirror; SimpleApp$.main(hw.scala:75) で

75行目はコード「sqlContext.createDataFrame()」です。

そして、私のsbtは以下のようなものです:

私は周りを検索しようとし、私の問題に非常に似ているこの投稿を見つけました.sbt設定をsparkバージョン(spark-mllib_2.11から2.10に、spark-1.4.1から1.5.0)に変更しようとしましたが、さらに依存関係の競合が発生しました。

私の直感では、それはバージョンの問題ですが、自分でそれを理解することはできません.誰か助けてもらえますか? どうもありがとう。

scala apache-spark sbt apache-spark-ml apache-spark-mllib

2015-09-23T18:57:46.823

問題タブ [apache-spark-ml]

パイプライン w LR

単純ベイズ

Reference