問題タブ [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 要求された配列サイズが MLLib ランダム フォレストの VM 制限を超えています
MLLib を使用してランダム フォレストをトレーニングしています。深さ 15 までは問題なく動作していますが、深さ 20 を使用すると
java.lang.OutOfMemoryError: 要求された配列サイズが VM の制限を超えています
ドライバーでは、DecisionTree.scala の collectAsMap 操作から、642 行目あたりで発生します。これは、トレーニングを開始してから 1 時間経過するまで発生しません。maxMemoryInMB=250 の 36 スレーブで 50 ツリーを使用していますが、240G のドライバー メモリを使用してもエラーが発生します。
以前にこのコンテキストでこのエラーを見た人はいますか?何が原因であるかについてアドバイスできますか?
ベスト、ルーク
apache-spark - PySpark & MLLib: ランダム フォレスト予測のクラス確率
PySpark を使用してトレーニングしたランダム フォレスト オブジェクトのクラス確率を抽出しようとしています。ただし、ドキュメントのどこにもその例は見当たりませんし、の方法でもありませんRandomForestModel
。
RandomForestModel
PySparkの分類子からクラス確率を抽出するにはどうすればよいですか?
以下は、(確率ではなく) 最終的なクラスのみを提供するドキュメントで提供されているサンプル コードです。
メソッドが表示されません。model.predict_proba()
どうすればよいですか??
vector - Spark: 値 reduceByKey はメンバーではありません
いくつかのスパース ベクトルをクラスタリングした後、すべてのクラスタで交差ベクトルを見つける必要があります。これを実現するために、次の例のように MLlib ベクトルを削減しようとしています。
次の行predictions.reduceByKey((v1, v2) => v1)
はエラーになります。
その理由は何ですか?
scala - Spark MLlib / K-Means の直感
私は機械学習アルゴリズムと Spark を初めて使用します。ここにある Twitter Streaming Language Classifier をフォローしています。
具体的には、このコード:
Cassandra から取得した一部のツイート (この場合は合計 200 ツイート) でバッチ モードで実行しようとしている場合を除きます。
例が示すように、一連のツイートを「ベクトル化」するためにこのオブジェクトを使用しています。
ExaminAndTrain.scala から変更された私のコードは次のとおりです。
このコードが実行され、各クラスターは「クラスター 0」「クラスター 1」などを出力し、その下には何も出力されません。ひっくり返せば
に
すべてのつぶやきがすべてのクラスターの下に出力されることを除けば、同じことが起こります。
これが私が直感的に考えていることです (間違っている場合は私の考えを修正してください): このコードは各ツイートをベクトルに変換し、いくつかのクラスターをランダムに選択してから、kmeans を実行してツイートをグループ化します (非常に高いレベルで、クラスター、私は仮定すると、一般的な「トピック」になります)。そのため、各ツイートをチェックして models.predict == 1 かどうかを確認すると、各クラスターの下に異なるツイートのセットが表示されます (トレーニング セットをそれ自体に対してチェックするため、すべてのツイートがクラスター内にある必要があります)。なぜこれをしないのですか?kmeans の機能に関する私の理解が間違っているか、トレーニング セットが小さすぎるか、手順が不足しています。
どんな助けでも大歓迎です
java - Java での spark Vector での foreachActive の使用
スパースベクトルのアクティブな要素を反復するJavaで簡単なコードを書く方法は?
そのようなベクトルがあるとしましょう:
私はラムダまたはFunction2を試していました(3つの異なるインポートからですが、常に失敗しました)。Function2 を使用する場合は、必要なインポートを提供してください。