問題タブ [apache-spark-mllib]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 問題

0 投票する

1 に答える

1110 参照

apache-spark - Spark ドキュメントの例の SVMWithSGD が機能しない

PySpark で Spark 1.1.0 を実行しています。

ドキュメントから直接取得した例を実行すると、次のようになります。

エラーが発生します：

問題は何ですか？

apache-spark apache-spark-mllib

2014-10-17T09:49:34.797

0 投票する

1 に答える

1986 参照

scala - Apache Spark MLLib - IDF-TF ベクトルを使用した KMeans の実行 - Java ヒープスペース

テキストドキュメント (TF-IDF ベクトル) の (大規模な) コレクションから MLLib で KMeans を実行しようとしています。ドキュメントは Lucene English アナライザーを介して送信され、HashingTF.transform() 関数からスパースベクトルが作成されます。(coalesce 関数を使用して) 使用している並列処理の程度に関係なく、KMeans.train は常に以下の OutOfMemory 例外を返します。この問題に取り組む方法について何か考えはありますか?

2014-10-19T10:10:01.023

0 投票する

1 に答える

639 参照

scala - Apache Spark のサンプル tfidf コードをコンパイルしようとしたときに HashingTF が見つかりませんでした

上記のコードスニペットをコンパイルしようとすると、次のエラーが発生します。

build.sbt ファイルに次の行を追加しました。

ポインタはありますか？

scala apache-spark apache-spark-mllib

2014-11-03T08:31:47.920

0 投票する

1 に答える

4154 参照

scala - Scala を使用して LabeledPoint の Vector の RDD を変換する - Apache Spark の MLLib

Apache-Spark と Scala の MLlib を使用しています。ベクトルのグループを変換する必要があります

MLLib のアルゴリズムを適用するために、LabeledPoint で
各ベクトルは、0.0 (false) または 1.0 (true) の Double 値で構成されます。すべてのベクトルは RDD に保存されるため、最終的な RDD は次のタイプになります。

したがって、RDD には、次のように作成されるベクトルがあります。

この RDD (data_tmp) または RowMatrix (data) から、MLLib アルゴリズムを使用するための LabeledPoint セットを作成するにはどうすればよいですか? たとえば、ここに示す SVM 線形アルゴリズムを適用する必要があります

scala apache-spark label apache-spark-mllib

2014-11-09T15:23:20.153

0 投票する

1 に答える

661 参照

apache-spark - Apache Spark での線形回帰

何百万もの小さなデータセットで線形回帰を実行し、これらのデータセットごとに重みと切片を保存する必要がある状況があります。そのために以下のscalaコードを書きました。ここで、これらのデータセットのそれぞれをRDDの行としてフィードし、それぞれで回帰を実行しようとしました(データは、それぞれに(ラベル、機能)が格納されているRDDです)行、この場合、ラベルごとに 1 つの特徴があります):

ここでの問題は、LinearRegressionWithSGDが入力用の RDD を想定しており、ネストされた RDD が Spark でサポートされていないことです。これらのデータセットはすべて互いに独立して実行できるため、このアプローチを選択したため、それらを配布したかった (したがって、ループを除外した)。他のタイプ (配列、リストなど) を使用してLinearRegressionWithSGDにデータセットとして入力できるかどうか、または Spark でそのような計算を分散するより良いアプローチを提案できますか?

apache-spark linear-regression apache-spark-mllib

2014-11-11T18:10:40.087

0 投票する

1 に答える

5299 参照

java - LogisticRegression の Spark MLLib TFIDF 実装

私は、spark 1.1.0 が提供する新しい TFIDF アルゴリズムを使用しようとしています。Java で MLLib の仕事を書いていますが、TFIDF 実装を機能させる方法がわかりません。何らかの理由で、 IDFModelは単純な Vector ではなく、メソッド変換の入力として JavaRDDのみを受け入れます。特定のクラスを使用して、LabledPoints の TFIDF ベクトルをモデル化するにはどうすればよいですか?

注: ドキュメント行は [ラベル; ラベル] の形式です。文章]

これまでの私のコードは次のとおりです。

Sean Owen からの解決策:

java apache-spark apache-spark-mllib tf-idf

2014-11-12T22:29:42.713

0 投票する

0 に答える

417 参照

serialization - Kryo を使用して Spark mllib モデルをシリアル化する

ML lib Classifacation Tree から生成されたモデルをシリアライズしたい。モデルはノードとアルゴリズムによって構築されている。ノードはシリアライズ可能のようだ。モデル全体をディスクにシリアライズし、別のクラスから読み取ってモデルを取得できますか?

ありがとう

serialization apache-spark apache-spark-mllib kryo

2014-11-13T05:45:17.807

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-mllib]

Reference