問題タブ [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
11595 参照

scala - 2 つの RDD[mllib.linalg.Vector] の追加

2 つのファイルに格納されている 2 つの行列を追加する必要があります。

latest1.txtandのコンテンツにlatest2.txtは次の文字列があります。

私は次のようにこれらのファイルを読んでいます:

r1、r2を追加したい。RDD[mllib.linalg.Vector]それで、 Apache-Spark でこの 2 つの s を追加する方法はありますか。

0 投票する
2 に答える
507 参照

amazon-web-services - Spark MLLib でサポート ベクター マシンのカーネル選択と損失関数を構成する方法

AWS Elastic Map Reduce(EMR) に spark をインストールし、MLLib のパッケージを使用して SVM を実行しています。ただし、カーネルの選択や誤分類のコストなど、モデルを構築するためのパラメーターを選択するオプションはありません (R の e1071 パッケージのように)。モデルの構築中にこれらのパラメータを設定する方法を教えてください。

0 投票する
1 に答える
465 参照

java - アパッチスパーク| さまざまな統計アルゴリズムで Spark MLlib に必要な入力ファイル形式は何ですか?

私は Apacha Spark と MLlib が初めてです。私は、ライブラリ (MLlib) を使用することについて、1 つのことを除けば、かなり理解しています。さまざまなアルゴリズム用に入力データ ファイルを準備する方法がわかりません。助けてください。ありがとう。

0 投票する
1 に答える
177 参照

apache-spark - Mahout ベクトルを使用した Spark k-means のトレーニング

hdfs に一連のファイル形式でいくつかの Mahout ベクトルがあります。Spark で KMeans モデルをトレーニングするために、何らかの方法で同じベクトルを使用することは可能ですか? 既存の Mahout ベクトルを Spark ベクトル (mllib) に変換することもできますが、それは避けたいと思います。

0 投票する
1 に答える
7464 参照

python - Python で Apache Spark mllib モデルを保存する

適合モデルを Spark のファイルに保存しようとしています。RandomForest モデルをトレーニングする Spark クラスターがあります。適合したモデルを保存して、別のマシンで再利用したいと考えています。Javaシリアライゼーションを行うことを推奨するWeb上の投稿をいくつか読みました。私はpythonで同等のことをしていますが、うまくいきません。トリックは何ですか?

このエラーが発生しています:

Apache Spark 1.2.0 を使用しています。

0 投票する
2 に答える
91 参照

apache-spark - Apache Spark がマシンのすべての RAM を認識しない

8 台のマシンの Spark クラスターを作成しました。各マシンには 104 GB の RAM と 16 個の仮想コアがあります。

Spark はマシンごとに 42 GB の RAM しか認識していないようですが、これは正しくありません。Spark がマシンのすべての RAM を認識しない理由を知っていますか?

ここに画像の説明を入力

PS:Apache Spark 1.2を使用しています

0 投票する
1 に答える
1279 参照

apache-spark - 限られた評価値で Apache Spark ALS (交互最小二乗) アルゴリズムを使用する方法

ALS を使用しようとしていますが、現在、データはユーザーが購入したものに関する情報に限定されています。そのため、ユーザー X がアイテム Y を購入したときに、Apache Spark からの ALS に評価を 1 (1) に設定しようとしていました (そして、そのアルゴリズムに提供した情報のみ)。

私はそれを学習しようとしていた (トレーニング/テスト/検証用に分割されたデータ)、またはすべてのデータについて学習しようとしていましたが、最終的には、任意のペアのユーザー項目に対して非常に類似した値 (5 番目または 6 番目に区別された値) で予測を得ていました。 0,86001 や 0,86002 のようにコンマの後に置きます)。

そんなことを考えていたのですが、もしかしたらレーティング=1しか出せないので、ALSはそんな極限状態で使えないのでしょうか?

このような問題を解決するために使用できる評価に関するトリックはありますか (購入したものに関する情報しかありません。後でより多くのデータを取得する予定ですが、取得するまで、何らかの協調フィルタリングを使用する必要があります。より多くのデータ - 言い換えれば、スタートアップ ページで何らかの推奨事項をユーザーに表示する必要があります。スタートアップ ページに ALS を選択しましたが、別のものを使用する可能性があります。正確には何ですか)?

もちろん、反復、ラムダ、ランクなどのパラメーターを変更していました。