問題タブ [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 機械学習の目的で「randomSplit」を使用して Scala でデータを分割する際の問題
こんにちは、私は MLlib が初めてで、Spark Web サイトでそれに関するドキュメントを読んでいます。次のコードで、トレーニング用に「0」、テスト用に「1」をキャッシュする必要がある理由を理解するのが困難です。
誰かが理由を理解するのを手伝ってくれますか? 私の知る限り、正と負のサンプルが必要なので、「1」は正、「0」は負になる可能性がありますが、なぜこのように分割されるのですか?
ありがとうございました!
scala - Spark 1.0.1 から KMeansModel.predict エラーが表示されるようになったのはなぜですか?
Scala
(2.10.4 バージョン)を使用していますが、 1.0.1Spark
に移行しました。Spark
バージョンを調べて、スクリプトの 1 つが正しく機能していないことに気付きました。MLlib
ライブラリの k-means メソッドを次のように使用します。
KMeansModel
という名前のオブジェクトがあるとしますclusters
:
問題のメソッドと、コンパイルしようとしているときに受け取るエラーは次のとおりです。
KMeansModel のドキュメントには、predict
関数には型の引数が必要であることが明確に記載されており、そのArray[Double]
ような型の引数を入れていると思います (そうではありませんか?)。私が間違っていることについて何か提案があれば、事前に感謝します。
scala - REPL は RDD 値を返しますが、SBT はコンパイルされません
新しい Spark Shell REPL セッションから以下のメソッドを実行すると、すべて正常に動作します。ただし、このメソッドを含むクラスをコンパイルしようとすると、次のエラーが発生します
どちらの場合も、Spark 1.0.1 を使用しています。コード自体は次のとおりです。
これは MLLib チュートリアル (わずかに適応) から取得したもので、何が問題なのかわかりません。
java - Spark: ネイティブ gpl ライブラリを読み込めませんでした
非常に単純な spark ジョブ (mllib の SGD でロジスティック回帰を使用する) を実行しようとすると、次のエラーが発生しました。
これは、ジョブを送信するために使用したコマンドです。
実際の Java コマンドは次のとおりです。
が設定されて-Djava.library.path
いないようです。上記の java コマンドも試して、ネイティブの lib ディレクトリを に指定しましたjava.library.path
が、それでも同じエラーが発生しました。これは、ネイティブ lib ディレクトリの内容です。
何が問題なのですか?ありがとう。
scala - Apache Spark - MLlib - K-Means 入力形式
K-Means タスクを実行してモデルのトレーニングに失敗し、結果のメトリクスを取得する前に Sparks scala シェルから追い出されたいです。入力形式が問題なのか、それとも何か他のものなのかはわかりません。Spark 1.0.0 を使用し、入力テキスタイル (400MB) は次のようになります。
MLlib サンプル ファイルでは float しか使用されていないため、最初の 2 つを使用できるかどうかはわかりません。だから私も最後の2つを試しました:
どちらの場合も私のエラーコードは次のとおりです。
私は何が欠けていますか?