問題タブ [apache-spark-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonでSpark DataFrameからlabeledPointsを作成する
sparkデータフレームから.map()
一連のを作成するために使用するpythonの関数は何ですか? labeledPoints
ラベル/結果が最初の列ではないが、その列名「ステータス」を参照できる場合の表記法は?
この .map() 関数を使用して Python データフレームを作成します。
reduce 関数がすべての Pandas データフレームを再結合した後、Spark データフレームに変換します。
labledPoints
しかし、これからPython でどのように作成すればよいでしょうか? 私はそれが別の.map()
機能であると思いますか?
scala - ML Pileline ロジスティック回帰によって生成された予測確率を分割する方法
ML パイプラインと DataFrame API を使用して、ロジスティック モデルから予測確率を抽出しようとしています。予測確率の出力は、以下に示すように、各クラス (0, 1) の予測確率を格納する列ベクトルです。クラス 1 の確率だけを抽出するにはどうすればよいでしょうか。ありがとうございます。
prob
"[0.13293408418007766,0.8670659158199223]"
"[0.1335112097146626,0.8664887902853374]"
python - Spark ML / pyspark でプログラムによって特徴ベクトルを作成する
複数の数値列に機能がある場合、pyspark の DataFrame で ML (KMeans など) を実行する簡潔な方法があるかどうか疑問に思っています。
つまり、Iris
データセットのように:
新しい列として手動で追加された特徴ベクトルを使用して DataSet を再作成せずに KMeans を使用し、コードで繰り返しハードコードされた元の列を使用したいと思います。
改善したい解決策:
次のような解決策を探しています。
apache-spark - mllib でトレーニング データを準備する方法
TL;DR; mllib
ツイートに対する予測のためにウィキ データ (テキストとカテゴリ) をトレーニングするに
はどうすればよいですか?
トークン化された wiki データを変換して、 または のいずれかでトレーニングできるようにする方法がわかりませNaiveBayes
んLogisticRegression
。私の目標は、訓練されたモデルをツイートと比較するために使用することです*。LR と for でパイプラインを使用してみましHashingTF
たIDF
がNaiveBayes
、間違った予測を続けています。これが私が試したことです:
*ラベルにウィキ データの多くのカテゴリを使用したいことに注意してください...二項分類しか見たことがありません (あるカテゴリか別のカテゴリか)...自分のやりたいことを行うことは可能ですか?
パイプライン w LR
単純ベイズ
python - クロス検証を使用した PySpark パイプラインのカスタム トランスフォーマー
hereで説明されているようなカスタム トランスフォーマーを作成しました。
最初のステップとしてトランスフォーマーを使用してパイプラインを作成すると、分類のために (ロジスティック回帰) モデルをトレーニングできます。
ただし、次のようにこのパイプラインでクロス検証を実行したい場合:
次のエラーが表示されます。
そして Python スタックトレース:
このエラーを回避するには、事前にデータ フレームを変換します。つまり、トランスフォーマーをパイプラインの外に移動します。しかし、すべてのステップを処理パイプライン内に保持したいので、前のステップなしで目に見えないデータを分類するときに使用でき、特徴抽出パラメーターを調整することもできます。そのため、どんな助けでも大歓迎です。
scala - Spark DataFrame からネストされた列を削除する
私はDataFrame
スキーマを持っています
一方、使用してデータフレームをフィルタリングできます
を使用して列を削除できません
ここで私が間違っていることはありますか?drop(rawData("features.feat1"))
あまり意味がありませんが、私も(失敗して)やろうとしました。
前もって感謝します、
ニキル
apache-spark - SparseVector 列を持つ RDD をベクトルとして列を持つ DataFrame に変換するにはどうすればよいですか
値のタプル (String、SparseVector)を持つRDDがあり、 RDDを使用してDataFrameを作成したいと考えています。ほとんどの ml アルゴリズムのライブラリで必要なスキーマである (label:string, features:vector) DataFrameを取得します。HashingTF ml Library は、 DataFrameの features 列が指定されたときにベクトルを出力するため、実行できることはわかってい ます。
だから私の質問は、どうにかして (String, SparseVector) のRDDを (String, vector) のDataFrameに変換できるかということです。私はいつものように試しましたが、私が持っているニーズに合ったDataTypesqlContext.createDataFrame
はありません。
scala - Spark MLlib の例、NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()
ドキュメントの例に従っています例: 推定器、変換器、およびパラメータ
そして、エラーメッセージが表示されました
15/09/23 11:46:51 INFO BlockManagerMaster: スレッド「メイン」で BlockManager 例外を登録しました java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)Lscala/reflect/api/ JavaUniverse$JavaMirror; SimpleApp$.main(hw.scala:75) で
75行目はコード「sqlContext.createDataFrame()」です。
そして、私のsbtは以下のようなものです:
私は周りを検索しようとし、私の問題に非常に似ているこの投稿を見つけました.sbt設定をsparkバージョン(spark-mllib_2.11から2.10に、spark-1.4.1から1.5.0)に変更しようとしましたが、さらに依存関係の競合が発生しました。
私の直感では、それはバージョンの問題ですが、自分でそれを理解することはできません.誰か助けてもらえますか? どうもありがとう。