問題タブ [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
32558 参照

apache-spark - Apache Mahout と Apache Spark の MLlib の違いは何ですか?

products電子商取引 Web サイト用の 1,000 万の製品を含む MySQL データベースを検討します。

製品を分類する分類モジュールを設定しようとしています。MySQL から Hadoop にデータをインポートするために Apache Sqoop を使用しています。

機械学習フレームワークとして Mahout を使用して、分類アルゴリズムの 1 つを使用したかったのですが、 MLlibで提供されている Spark に遭遇しました。

  • では、2 つのフレームワークの違いは何でしょうか。
  • 主に、それぞれの利点、欠点、および制限は何ですか?
0 投票する
5 に答える
25458 参照

apache-spark - Spark RDD の要素に一意の連続番号を割り当てる方法

のデータセットがあり(user, product, review)、それを mllib の ALS アルゴリズムにフィードしたいと考えています。

アルゴリズムでは、ユーザーと製品が数字である必要がありますが、私のものは文字列のユーザー名と文字列の SKU です。

現在、個別のユーザーと SKU を取得し、Spark の外部で数値 ID を割り当てています。

これを行うためのより良い方法があるかどうか疑問に思っていました。私が考えた 1 つのアプローチは、基本的に 1 から までを列挙するカスタム RDD を作成nし、2 つの RDD で zip を呼び出すことです。

0 投票する
2 に答える
9290 参照

java - Apache Spark の MLlib の線形回帰を使用するには?

私はApache Sparkを初めて使用し、MLlibのドキュメントからscalaの例を見つけましたが、scalaを本当に知りません.javaの例を知っている人はいますか? ありがとう!サンプルコードは

MLlib のドキュメントから

0 投票する
1 に答える
293 参照

scala - long 値を MLlib の Rating() メソッドに渡す

Spark の MLlib ライブラリを使用してレコメンダー システムを構築しようとしています。(Scala を使用) ALS の train メソッドを使用できるようにするには、Rating() メソッド (パッケージ org.apache.spark.mllib.recommendation.Rating の一部) を使用して評価マトリックスを作成する必要があります。このメソッドでは、ユーザー ID として int を渡す必要があります。ただし、使用しているデータセットには 11 桁の ID があるため、渡そうとするとエラーがスローされます。

長い値を Rating メソッドに渡すことができる方法があるかどうかは誰にも分かりますか? または、このメソッドをオーバーライドするにはどうすればよいですか? または、11 桁の数値を int のままで 10 桁または 9 桁に一意に変換するにはどうすればよいでしょうか。

どんな助けでも大歓迎です。ありがとう

0 投票する
1 に答える
308 参照

scala - MLlib の例が機能しない

このページ (Scala を使用する Spark) の MLlib の例を試しています: MLlib ページ

すべての例で同じエラー エラーがスローされています。私は線形回帰のために得ているものを与えました:

誰かがこのエラーの原因を教えてもらえますか? ありがとうございました。

0 投票する
1 に答える
14353 参照

scala - Spark を使用してテキスト分類用の TF-IDF を作成するにはどうすればよいですか?

次の形式の CSV ファイルがあります。

product_idX は整数で、product_titleX は文字列です。例:

ファイルから TF-IDF を作成して、MLlib の Naive Bayes Classifier に使用できるようにしようとしています。

これまでのところ、Spark for Scala を使用しており、公式ページと Berkley AmpCamp 3および4で見つけたチュートリアルを使用しています。

だから私はファイルを読んでいます:

次に、タプルでマッピングしていますRDD[Array[String]]

タプルをペアに変換した後RDD[(Int, String)]

しかし、私はここで立ち往生しており、そこからベクターを作成してTFIDFに変換する方法がわかりません。

ありがとう

0 投票する
2 に答える
12453 参照

java - Apache sparkで平均を計算するには?

次のように保存された Double のリストを破棄します。

このリストの平均を計算したいと思います。ドキュメントによると、:

MLlib のメソッドはすべて Java に適した型を使用しているため、Scala で行うのと同じ方法でインポートして呼び出すことができます。唯一の注意点は、メソッドが Scala RDD オブジェクトを受け取るのに対して、Spark Java API は別の JavaRDD クラスを使用することです。JavaRDD オブジェクトで .rdd() を呼び出すことにより、Java RDD を Scala のものに変換できます。

同じページに、次のコードが表示されます。

私の理解では、これは (型に関して) と同等です。

結果として、私はJavaRDDこのように私の平均を計算しようとしました:

ただし、機能せず、次のエラーが表示されますThe method mean() is undefined for the type RDD<Double>また、 RDD scala documentationでこの関数についての言及も見つかりませんでした。. これは私の側の理解が悪いためですか、それとも何か別のことですか?