問題タブ [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark ドキュメントの例の SVMWithSGD が機能しない
PySpark で Spark 1.1.0 を実行しています。
ドキュメントから直接取得した例を実行すると、次のようになります。
エラーが発生します:
問題は何ですか?
scala - Apache Spark MLLib - IDF-TF ベクトルを使用した KMeans の実行 - Java ヒープ スペース
テキスト ドキュメント (TF-IDF ベクトル) の (大規模な) コレクションから MLLib で KMeans を実行しようとしています。ドキュメントは Lucene English アナライザーを介して送信され、HashingTF.transform() 関数からスパース ベクトルが作成されます。(coalesce 関数を使用して) 使用している並列処理の程度に関係なく、KMeans.train は常に以下の OutOfMemory 例外を返します。この問題に取り組む方法について何か考えはありますか?
scala - Apache Spark のサンプル tfidf コードをコンパイルしようとしたときに HashingTF が見つかりませんでした
上記のコード スニペットをコンパイルしようとすると、次のエラーが発生します。
build.sbt ファイルに次の行を追加しました。
ポインタはありますか?
scala - Scala を使用して LabeledPoint の Vector の RDD を変換する - Apache Spark の MLLib
Apache-Spark と Scala の MLlib を使用しています。ベクトルのグループを変換する必要があります
MLLib のアルゴリズムを適用するために、LabeledPoint で
各ベクトルは、0.0 (false) または 1.0 (true) の Double 値で構成されます。すべてのベクトルは RDD に保存されるため、最終的な RDD は次のタイプになります。
したがって、RDD には、次のように作成されるベクトルがあります。
この RDD (data_tmp) または RowMatrix (data) から、MLLib アルゴリズムを使用するための LabeledPoint セットを作成するにはどうすればよいですか? たとえば、ここに示す SVM 線形アルゴリズムを適用する必要があります
apache-spark - Apache Spark での線形回帰
何百万もの小さなデータセットで線形回帰を実行し、これらのデータセットごとに重みと切片を保存する必要がある状況があります。そのために以下のscalaコードを書きました。ここで、これらのデータセットのそれぞれをRDDの行としてフィードし、それぞれで回帰を実行しようとしました(データは、それぞれに(ラベル、機能)が格納されているRDDです)行、この場合、ラベルごとに 1 つの特徴があります):
ここでの問題は、LinearRegressionWithSGDが入力用の RDD を想定しており、ネストされた RDD が Spark でサポートされていないことです。これらのデータセットはすべて互いに独立して実行できるため、このアプローチを選択したため、それらを配布したかった (したがって、ループを除外した)。他のタイプ (配列、リストなど) を使用してLinearRegressionWithSGDにデータセットとして入力できるかどうか、または Spark でそのような計算を分散するより良いアプローチを提案できますか?
serialization - Kryo を使用して Spark mllib モデルをシリアル化する
ML lib Classifacation Tree から生成されたモデルをシリアライズしたい。モデルはノードとアルゴリズムによって構築されている。ノードはシリアライズ可能のようだ。モデル全体をディスクにシリアライズし、別のクラスから読み取ってモデルを取得できますか?
ありがとう