問題タブ [apache-spark-mllib]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2209 問題

0 投票する

5 に答える

31960 参照

apache-spark - PySpark & MLLib: ランダムフォレスト機能の重要性

PySpark を使用してトレーニングしたランダムフォレストオブジェクトの機能の重要度を抽出しようとしています。ただし、ドキュメントのどこにもこれを行う例は見当たりませんし、RandomForestModel のメソッドでもありません。

RandomForestModelPySpark のリグレッサーまたは分類子から機能の重要度を抽出するにはどうすればよいですか?

ドキュメントで提供されているサンプルコードを次に示します。ただし、機能の重要性については言及されていません。

利用可能な属性が表示されませんmodel.__featureImportances_-- どこで確認できますか?

2015-03-10T19:01:44.427

0 投票する

1 に答える

1053 参照

apache-spark - Apache Spark ALS 推奨アプローチ

Spark MLLib の ALS を使用してレコメンデーションシステムを構築しようとしています。

現在、すべてのユーザー向けの推奨事項を毎日事前に作成しようとしています。単純な暗黙のフィードバックと ALS を使用しています。

問題は、2,000 万人のユーザーと 3,000 万の製品があり、メインの predict() メソッドを呼び出すには、ユーザーと製品のデカルト結合が必要であり、これは大きすぎて、結合だけを生成するのに数日かかる場合があることです。デカルト結合を回避してプロセスを高速化する方法はありますか?

現在、64Gb の RAM を搭載した 8 つのノードがあり、データには十分だと思います。

apache-spark machine-learning bigdata recommendation-engine apache-spark-mllib

2015-03-18T10:42:08.997

0 投票する

0 に答える

312 参照

java - Apache Spark での類似関数と RowMatrix の使用

RowMatrix から計算された平均ベクトルと同じ RowMatrix 内のすべてのベクトルとの類似性を計算する必要があります。

平均ベクトルを計算するために、私はこれを行っています（Javaの例）：

類似性を計算できるように、このベクトルを RowMatrix "マトリックス" に追加する方法、または何らかの方法でそれを行う必要がありますか?

java apache-spark similarity apache-spark-mllib

2015-03-19T08:45:33.090

0 投票する

1 に答える

717 参照

eclipse - scala の実行時エラー: NoSuchMethodError

eclipse で Scala 言語で Spark MLlib アルゴリズムを使用しようとしています。コンパイル中に問題はなく、実行中に「NoSuchMethodError」というエラーが発生します。

これが私のコードです #Copied

}

モデルの開発中にエラーが発生します。つまり、

この行の前の print ステートメントは、コンソールに値を完全に出力しています。

pom.Xml の依存関係は次のとおりです。

日食のエラー:

eclipse scala maven apache-spark apache-spark-mllib

2015-03-19T10:21:51.553

0 投票する

1 に答える

1417 参照

apache-spark - 新しいユーザーとの Spark MLLib 協調フィルタリング

Spark に実装されている Collaborative Filtering アルゴリズムを試していますが、次の問題が発生しています。

次のデータを使用してモデルをトレーニングするとします。

次のデータでテストすると、次のようになります。

ユーザー 'u3' の評価は表示されません。おそらく、そのユーザーがトレーニングデータに表示されないためです。これはコールドスタートの問題によるものですか？この問題は新しい製品にのみ適用されるという印象を受けました。この場合、トレーニングデータの 'u1' と 'u2' は 'u3' と同様の評価情報を持っているため、'u3' の予測が期待できます。これは、モデルベースとメモリベースの協調フィルタリングの違いですか?

apache-spark apache-spark-mllib collaborative-filtering

2015-03-20T05:34:02.210

0 投票する

0 に答える

236 参照

azure - Spark MLlib は非推奨のプロパティをログに記録します

私はデータブリックからのトレーニングに従いました。これは Azure で実行され、次の構成でビルドされています。

build.sbt

それは機能し、推奨事項を提供します。しかし
1) コンソールは一部のコードの非推奨について不平を言っています (下のログの左矢印を参照)。この問題に関する情報が見つかりません。
2）さらに、パラメータの欠如について何度か警告します：15/03/21 14:49:51 WARN recommendation.MatrixFactorizationModel: User factor does not have a partitioner. Prediction on individual records could be slow..

コンソール

azure apache-spark apache-spark-mllib

2015-03-21T16:26:18.737

0 投票する

1 に答える

1090 参照

java - 予測を JavaRDD にマップできません

予測を BinaryClassificationMetrics boject に渡すために LinearRegression モデルにマップしようとしています。

ただし、を呼び出すとpredictions.map(...)、次のコンパイルエラーが発生します。

予測データフレームのデータをマッピングする方法について何か提案はありますか?

java apache-spark rdd apache-spark-mllib

2015-03-23T23:42:42.253

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-mllib]

Reference