問題タブ [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
538 参照

scala - Apache Spark のストリーミング Kmeans クラスタリングの公式の例を試すと、model.predictOnValues で型エラーが発生するのはなぜですか?

公式ガイドの最後にあるストリーミング クラスタリングのサンプル コードを試しているのですが、型エラーが発生します。これが私のコードです:

しかし、私が走るとき

次のエラーが表示されます。

0 投票する
0 に答える
495 参照

java - 要求された配列サイズが MLLib ランダム フォレストの VM 制限を超えています

MLLib を使用してランダム フォレストをトレーニングしています。深さ 15 までは問題なく動作していますが、深さ 20 を使用すると

java.lang.OutOfMemoryError: 要求された配列サイズが VM の制限を超えています

ドライバーでは、DecisionTree.scala の collectAsMap 操作から、642 行目あたりで発生します。これは、トレーニングを開始してから 1 時間経過するまで発生しません。maxMemoryInMB=250 の 36 スレーブで 50 ツリーを使用していますが、240G のドライバー メモリを使用してもエラーが発生します。

以前にこのコンテキストでこのエラーを見た人はいますか?何が原因であるかについてアドバイスできますか?

ベスト、ルーク

0 投票する
4 に答える
8809 参照

apache-spark - PySpark & MLLib: ランダム フォレスト予測のクラス確率

PySpark を使用してトレーニングしたランダム フォレスト オブジェクトのクラス確率を抽出しようとしています。ただし、ドキュメントのどこにもその例は見当たりませんし、の方法でもありませんRandomForestModel

RandomForestModelPySparkの分類子からクラス確率を抽出するにはどうすればよいですか?

以下は、(確率ではなく) 最終的なクラスのみを提供するドキュメントで提供されているサンプル コードです。

メソッドが表示されません。model.predict_proba()どうすればよいですか??

0 投票する
1 に答える
5142 参照

vector - Spark: 値 reduceByKey はメンバーではありません

いくつかのスパース ベクトルをクラスタリングした後、すべてのクラスタで交差ベクトルを見つける必要があります。これを実現するために、次の例のように MLlib ベクトルを削減しようとしています。

次の行predictions.reduceByKey((v1, v2) => v1)はエラーになります。

その理由は何ですか?

0 投票する
1 に答える
1486 参照

scala - Spark MLlib / K-Means の直感

私は機械学習アルゴリズムと Spark を初めて使用します。ここにある Twitter Streaming Language Classifier をフォローしています。

http://databricks.gitbooks.io/databricks-spark-reference-applications/content/twitter_classifier/README.html

具体的には、このコード:

http://databricks.gitbooks.io/databricks-spark-reference-applications/content/twitter_classifier/scala/src/main/scala/com/databricks/apps/twitter_classifier/ExamineAndTrain.scala

Cassandra から取得した一部のツイート (この場合は合計 200 ツイート) でバッチ モードで実行しようとしている場合を除きます。

例が示すように、一連のツイートを「ベクトル化」するためにこのオブジェクトを使用しています。

ExaminAndTrain.scala から変更された私のコードは次のとおりです。

このコードが実行され、各クラスターは「クラスター 0」「クラスター 1」などを出力し、その下には何も出力されません。ひっくり返せば

すべてのつぶやきがすべてのクラスターの下に出力されることを除けば、同じことが起こります。

これが私が直感的に考えていることです (間違っている場合は私の考えを修正してください): このコードは各ツイートをベクトルに変換し、いくつかのクラスターをランダムに選択してから、kmeans を実行してツイートをグループ化します (非常に高いレベルで、クラスター、私は仮定すると、一般的な「トピック」になります)。そのため、各ツイートをチェックして models.predict == 1 かどうかを確認すると、各クラスターの下に異なるツイートのセットが表示されます (トレーニング セットをそれ自体に対してチェックするため、すべてのツイートがクラスター内にある必要があります)。なぜこれをしないのですか?kmeans の機能に関する私の理解が間違っているか、トレーニング セットが小さすぎるか、手順が不足しています。

どんな助けでも大歓迎です

0 投票する
1 に答える
1810 参照

java - Java での spark Vector での foreachActive の使用

スパースベクトルのアクティブな要素を反復するJavaで簡単なコードを書く方法は?

そのようなベクトルがあるとしましょう:

私はラムダまたはFunction2を試していました(3つの異なるインポートからですが、常に失敗しました)。Function2 を使用する場合は、必要なインポートを提供してください。