問題タブ [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1110 参照

apache-spark - Spark ドキュメントの例の SVMWithSGD が機能しない

PySpark で Spark 1.1.0 を実行しています。

ドキュメントから直接取得した例を実行すると、次のようになります。

エラーが発生します:

問題は何ですか?

0 投票する
1 に答える
1986 参照

scala - Apache Spark MLLib - IDF-TF ベクトルを使用した KMeans の実行 - Java ヒープ スペース

テキスト ドキュメント (TF-IDF ベクトル) の (大規模な) コレクションから MLLib で KMeans を実行しようとしています。ドキュメントは Lucene English アナライザーを介して送信され、HashingTF.transform() 関数からスパース ベクトルが作成されます。(coalesce 関数を使用して) 使用している並列処理の程度に関係なく、KMeans.train は常に以下の OutOfMemory 例外を返します。この問題に取り組む方法について何か考えはありますか?

0 投票する
1 に答える
639 参照

scala - Apache Spark のサンプル tfidf コードをコンパイルしようとしたときに HashingTF が見つかりませんでした

上記のコード スニペットをコンパイルしようとすると、次のエラーが発生します。

build.sbt ファイルに次の行を追加しました。

ポインタはありますか?

0 投票する
1 に答える
4154 参照

scala - Scala を使用して LabeledPoint の Vector の RDD を変換する - Apache Spark の MLLib

Apache-Spark と Scala の MLlib を使用しています。ベクトルのグループを変換する必要があります

MLLib のアルゴリズムを適用するために、LabeledPoint で
各ベクトルは、0.0 (false) または 1.0 (true) の Double 値で構成されます。すべてのベクトルは RDD に保存されるため、最終的な RDD は次のタイプになります。

したがって、RDD には、次のように作成されるベクトルがあります。

この RDD (data_tmp) または RowMatrix (data) から、MLLib アルゴリズムを使用するための LabeledPoint セットを作成するにはどうすればよいですか? たとえば、ここに示す SVM 線形アルゴリズムを適用する必要があります

0 投票する
1 に答える
661 参照

apache-spark - Apache Spark での線形回帰

何百万もの小さなデータセットで線形回帰を実行し、これらのデータセットごとに重みと切片を保存する必要がある状況があります。そのために以下のscalaコードを書きました。ここで、これらのデータセットのそれぞれをRDDの行としてフィードし、それぞれで回帰を実行しようとしました(データは、それぞれに(ラベル、機能)が格納されているRDDです)行、この場合、ラベルごとに 1 つの特徴があります):

ここでの問題は、LinearRegressionWithSGDが入力用の RDD を想定しており、ネストされた RDD が Spark でサポートされていないことです。これらのデータセットはすべて互いに独立して実行できるため、このアプローチを選択したため、それらを配布したかった (したがって、ループを除外した)。他のタイプ (配列、リストなど) を使用してLinearRegressionWithSGDにデータセットとして入力できるかどうか、または Spark でそのような計算を分散するより良いアプローチを提案できますか?

0 投票する
1 に答える
5299 参照

java - LogisticRegression の Spark MLLib TFIDF 実装

私は、spark 1.1.0 が提供する新しい TFIDF アルゴリズムを使用しようとしています。Java で MLLib の仕事を書いていますが、TFIDF 実装を機能させる方法がわかりません。何らかの理由で、 IDFModelは単純な Vector ではなく、メソッド変換の入力としてJavaRDDのみを受け入れます。特定のクラスを使用して、LabledPoints の TFIDF ベクトルをモデル化するにはどうすればよいですか?

注: ドキュメント行は [ラベル; ラベル] の形式です。文章]


これまでの私のコードは次のとおりです。

Sean Owen からの解決策:

0 投票する
0 に答える
417 参照

serialization - Kryo を使用して Spark mllib モデルをシリアル化する

ML lib Classifacation Tree から生成されたモデルをシリアライズしたい。モデルはノードとアルゴリズムによって構築されている。ノードはシリアライズ可能のようだ。モデル全体をディスクにシリアライズし、別のクラスから読み取ってモデルを取得できますか?

ありがとう