問題タブ [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Apache Spark と mllib を使用してキーワードを生成する
次のようなコードを書きました。
各 articleList 項目の「レート」RDD から上位 5 つのキーワードを取得するにはどうすればよいですか?
追加:
articleList には次のオブジェクトが含まれます。
words には、article のすべての単語が含まれます。
レートの構造がわかりません。ドキュメントには次のように書かれています。
apache-spark - ユーザー ID が連続する整数ではなく文字列の場合、mllib.recommendation を使用する方法は?
mllib.recommendation
Spark のライブラリを使用して、プロトタイプのレコメンダー システムを構築したいと考えています。ただし、私が持っているユーザー データの形式は、次のような形式です。
ライブラリを使用する場合mllib.recommendation
、クラスの API によるとRating
、ユーザー ID は整数でなければなりません (また、連続している必要がありますか?)
実際のユーザー ID と Spark が使用する数値 ID の間で何らかの変換を行う必要があるようです。しかし、どうすればいいですか?
scala - プレーンな Apache Spark Matrix で SVD を実行するにはどうすればよいですか?
Apache Spark Matrix でさらに操作を実行する方法を見つけようとしています。私は単純なものを作成しRowMatrix
、それから共分散行列を作成しました。ただし、例/ドキュメントを見ると、次に何をすべきかわかりません。これまでの私のコードは次のとおりです。
私がやりたいことは、次のような単純なものです(疑似コード):
ここで助けてくれる人に感謝します:)
apache-spark - Spark MLlib で必要な org.apache.spark.rdd.RDD[Array[Double]] を Array[Double] に変換する方法
を実装しようとしていますKMeans using Apache Spark
。
次のエラーが表示されます。
そこで、ここに示すように Array[Double] を Vector に変換してみました
次のエラーが発生しました:
だから私はそれorg.apache.spark.rdd.RDD[Array[Double]]
が Array[Double] と同じではないと推測しています
データを次のように処理するにはどうすればよいorg.apache.spark.rdd.RDD[Array[Double]]
ですか? またはどうすれば変換できorg.apache.spark.rdd.RDD[Array[Double]] to Array[Double]
ますか?
apache-spark - トップ N の推奨事項を生成するための MLlib 協調フィルタリング
MLlib の ALS 行列因数分解を使用して、すべてのユーザーに上位 n 件の推奨事項を生成する方法を探していましたが、成功しませんでした。そのような方法は存在しますか?