“apache-spark-ml”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

19544 参照

apache-spark - RandomForest モデルを交差検証する方法は?

いくつかのデータでトレーニングされているランダムフォレストを評価したいと考えています。Apache Spark に同じことを行うためのユーティリティはありますか、それともクロス検証を手動で実行する必要がありますか?

2015-09-24T19:37:56.070

0 投票する

2 に答える

801 参照

pyspark - ML Spark とデータフレームによる暗黙的な推奨

暗黙的な評価でレコメンダーを構築するために、Spark と Dataframes で新しい ML ライブラリを使用しようとしています。私のコード

ただし、このエラーで実行されます

pyspark.sql.utils.AnalysisException: 指定された入力列ユーザー、アイテムの「評価」を解決できません。

だから、データフレームを定義する方法がわからない

pyspark recommendation-engine spark-dataframe apache-spark-ml

2015-10-04T10:03:38.677

0 投票する

1 に答える

28902 参照

python - PySpark で複数の機能をエンコードして組み立てる

Spark でデータを読み込んで処理するために使用している Python クラスがあります。やらなければならないさまざまなことの中で、Spark データフレームのさまざまな列から派生したダミー変数のリストを生成しています。私の問題は、必要なことを達成するためにユーザー定義関数を適切に定義する方法がわからないことです。

私は現在、基礎となるデータフレームRDDにマップされたときに問題の半分を解決するメソッドを持っています(これはより大きなdata_processorクラスのメソッドであることを思い出してください):

基本的に、これが行うことは、指定されたデータフレームに対して、指定された列のカテゴリ変数値を取得し、これらの新しいダミー変数の値のリストを返すことです。つまり、次のコードです。

次のようなものを返します。

これはまさに、必要なダミー変数のリストを生成するという点で私が望んでいることですが、ここに私の質問があります: (a) Spark SQL クエリで使用できる同様の機能を持つ UDF を作成するにはどうすればよいですか (または他の方法で) 、私は推測します)、または(b)上記のマップから得られたRDDを取得し、それをuser_dataデータフレームに新しい列として追加しますか?

feature_arrayいずれにせよ、私がする必要があるのは、上記の関数の出力 (または機能的に同等のもの) を含む新しい列 (と呼びましょう) とともに、user_data の列を含む新しいデータフレームを生成することです。

python apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

2015-10-07T01:40:58.430

0 投票する

1 に答える

2891 参照

scala - spark.ml パイプラインで推定属性にアクセスすることは可能ですか?

Spark 1.5.1 に spark.ml パイプラインがあります。これは、一連の変換器とそれに続く k-means 推定器で構成されています。パイプラインのフィッティング後にKMeansModel .clusterCentersにアクセスできるようにしたいのですが、方法がわかりません。sklearnのpipeline.named_steps機能に相当するspark.mlはありますか?

2つのオプションを提供するこの回答を見つけました。最初の方法は、k-means モデルをパイプラインから取り出して個別に適合させた場合に機能しますが、それではパイプラインの目的が少し損なわれます。2 番目のオプションは機能しませんerror: value getModel is not a member of org.apache.spark.ml.PipelineModel。

編集:パイプラインの例:

だから今fitKmeansはタイプorg.apache.spark.ml.PipelineModelです。私の質問は、このパイプラインに含まれる k-means モデルによって計算されたクラスターセンターにアクセスするにはどうすればよいですか? 上記のように、パイプラインに含まれていない場合、これはで実行できますfitKmeans.clusterCenters。

scala apache-spark pipeline apache-spark-ml

2015-10-19T17:04:11.940

0 投票する

1 に答える

3657 参照

machine-learning - spark.ml が spark.mllib アルゴリズムを実装しないのはなぜですか?

Spark MLlib Guideに従って、 Spark には 2 つの機械学習ライブラリがあることがわかります。

spark.mllib、RDD の上に構築されます。
spark.ml、データフレームの上に構築されます。

thisおよびthis question on StackOverflow によると、データフレームは RDD よりも優れている (そして新しい) ため、可能な限り使用する必要があります。

問題は、一般的な機械学習アルゴリズム (例: Frequent Pattern Mining、Naive Bayesなど)を使用したいのですが、 spark.ml(データフレームの場合) そのようなメソッドを提供せず、spark.mllib(RDD の場合) のみがこのアルゴリズムを提供することです。

データフレームが RDD よりも優れており、参照されているガイドでの使用が推奨されている場合、そのライブラリにspark.ml一般的な機械学習手法が実装されていないのはなぜですか?

ここで欠けている点は何ですか？

machine-learning apache-spark pyspark apache-spark-mllib apache-spark-ml

2015-10-20T12:47:23.870

0 投票する

1 に答える

2097 参照

apache-spark - チェックポイント RDD ReliableCheckpointRDD には、元の RDD とは異なる数のパーティションがあります

2 台のマシンの Spark クラスターがあり、Spark ストリーミングアプリケーションを実行すると、次のエラーが発生します。

HDFS/Cassandra/その他のデータストアではないファイルシステムにチェックポイントディレクトリを指定するにはどうすればよいですか?

私は2つの可能な解決策を考えましたが、それらをコーディングする方法がわかりません:

両方のワーカーに対してローカルな 1 つのリモートディレクトリがある
両方のワーカーにリモートディレクトリを指定する

助言がありますか？

apache-spark spark-streaming apache-spark-ml

2015-10-20T14:04:24.813

0 投票する

1 に答える

11659 参照

apache-spark - DataFrame で複数の特徴ベクトルをマージするには?

Spark ML トランスフォーマーを使用して、DataFrame各行が次のように表示される場所にたどり着きました。

ここtext_featuresで、は項の重みのスパースベクトル、color_featuresは小さな 20 要素 (ワンホットエンコーダー) の色の密なベクトルでtype_featuresあり、型のワンホットエンコーダーの密なベクトルでもあります。

これらの機能を 1 つの大きな配列にマージして、2 つのオブジェクト間のコサイン距離などを測定するには、(Spark の機能を使用して) どのようなアプローチがよいでしょうか?

apache-spark machine-learning apache-spark-sql apache-spark-ml

2015-10-22T05:01:39.020

問題タブ [apache-spark-ml]

ここで欠けている点は何ですか？

Reference