問題タブ [apache-spark-mllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
243 参照

apache-spark - Spark の MLlib で Naive Baye の事後確率にアクセスする

Java を使用して MLlib で Naive Baye の予測の事後確率にアクセスしようとしています。メンバー変数 brzPi と brzTheta はプライベートなので、リフレクションを介して値にアクセスするためのハックを適用しました。

私は Java を使用していますが、そよ風のライブラリを Java で使用する方法が見つかりませんでした。私が正しければ、関連する計算は NaiveBayesModel クラスの 66 行目に示されています。

labels(brzArgmax(brzPi + brzTheta * testData.toBreeze))

ここでは、DenseVectors の要素ごとの加算と乗算は、Java では直接アクセスできない演算子として与えられます。また、brzArgmax の使用は、Java ではあまり明確ではありません。

上記の計算をScalaからJavaに変換するのを手伝ってくれませんか。

PS: MLlib でこれらの変数を外部から直接アクセスできるようにするために、Jira で改善要求を出しました。

ありがとう、ジャティン

0 投票する
1 に答える
467 参照

scala - コードでプライベート関数 [mllib] を使用するにはどうすればよいですか?

私はspark、特にmllibライブラリを使い始めました。関数のいくつかは、スコープとプライベート ステートメントが制限されています。これらの関数をコードで使用するにはどうすればよいですか? 例: KMeans.scala

kmeans を拡張するクラスを作成し、この関数を使用しようとすると、アクセスできないように見えます。次のエラーが表示されます。

これを回避する方法の例を誰か教えてもらえますか? 感謝と敬意

0 投票する
0 に答える
15887 参照

apache-spark - 奇妙なorg.apache.spark.SparkException:ステージの失敗によりジョブが再び中止されました

Spark アプリケーションをスタンドアロン モードでデプロイしようとしています。このアプリケーションでは、tf-idf ベクトルを使用して単純ベイズ分類器をトレーニングしています。

この投稿と同様の方法でアプリケーションを作成しました ( LogisticRegression の Spark MLLib TFIDF 実装) 違いは、各ドキュメントを取得し、トークン化して正規化することです。

したがって、Document の各コピーには、正規化されたドキュメント テキストを文字列リスト (単語のリスト) として含む textField と、ドキュメントのラベルを double として含む labelField があります。parsingFunction には map や flatMap などの Spark 関数はありません。そのため、データ配布関数は含まれていません。

アプリケーションをローカル モードで起動すると問題なく動作し、予測モードでは分類器がテスト ドキュメントを正しく分類しますが、スタアロン モードで起動しようとすると問題が発生します -

1 台のマシンでマスター ノードとワーカー ノードを起動すると、アプリケーションは動作しますが、予測の結果はローカル モードよりも悪くなります。あるマシンで master を起動し、別のマシンで worker を起動すると、次のエラーでアプリケーションがクラッシュします。

私が見つけたログで:

アプリケーションをデバッグしたところ、次のコードの後に​​クラッシュすることがわかりました。

多分誰かが何が起こっているのか知っていますか?

ありがとうございました。

PS Windows 7 64 ビットで Spark 1.1.0 を使用しています。どちらのマシンも 8 コアの CPU と 16 GB の RAM を搭載しています。

0 投票する
2 に答える
1536 参照

java - Spark MLlib で Java から Breeze を使用する

Java から MLlib を使用しようとしているときに、簡単なマトリックス操作を使用する正しい方法は何ですか? たとえば、scala での乗算では、単純に " matrix * vector" です。対応する機能は Java でどのように表現されますか?

" " のようなメソッドがあり$colon$times、正しい方法で呼び出すことができます

オペレーターインスタンスが必要になるかもしれません...breeze.linalg.operators.OpMulMatrix.Impl2 しかし、正確に型指定されたどのOperationインスタンスとパラメーターを使用するのでしょうか?

0 投票する
1 に答える
363 参照

apache-spark - スタンドアロン クラスタでの Spark のアプリケーションの効率が低い

スタンドアロン クラスターで spark アプリケーションを実行しようとしています。このアプリケーションでは、tf-idf ベクトルを使用して単純ベイズ分類器をトレーニングしています。

この投稿と同様の方法でアプリケーションを作成しました ( LogisticRegression の Spark MLLib TFIDF 実装)。主な違いは、各ドキュメントを取得し、トークン化して正規化することです。

parsingFunction には map や flatMap などの Spark 関数はありません。そのため、データ配布関数は含まれていません。

私のクラスタは - 1 台のマスター マシンと 2 台の別のマシン - ノードです。すべてのマシンに 8 コアの CPU と 16 GB の RAM が搭載されています。20 個のテキスト ファイル (それぞれ ~ 100 KB - 1.5 MB) で分類子をトレーニングしようとしています。私は分散ファイルシステムを使用せず、ファイルをノードに直接配置します。

問題は、クラスターが思ったほど速く動作しないことです - 分類子は約 5 分間トレーニングされました... ローカル モードでは、この操作にかかる時間ははるかに短くなりました。

何に注意すればよいですか?

アドバイスをいただければ幸いです。

ありがとう!

0 投票する
1 に答える
517 参照

java - Web プロジェクトで spark mllib を使用する方法

mllib.jarWeb プロジェクトでspark を使用しようとしています。ダウンロードspark-1.1.0-bin-hadoop2.4して解凍しました。次のように見つかったいくつかのjarがあります。

datanucleus-api-jdi-3.2.1.jar

datanucleus-core-3.2.2.jar

datanucleus-rdbms-3.2.1.jar

スパークアセンブリ-1.1.0-hadoop2.4.0.jar

spark-examples-1.1.0-hadoop2.4.0.jar

次にspark-assembly-1.1.0-hadoop2.4.0.jar、分類方法をインポートするために使用します。Java プロジェクトで正常に実行できます。ただし、jar を に追加すると、次のSomeWebProject/web-inf/libエラー メッセージが表示されます。

私のWebプロジェクトのjavax.servletクラスがspark jarで複製されているので、私はそれを知っています。スパークのを削除しようとしていjavax.servletます。まだ機能していません。

見分ける方法を教えてください

他の Spark jar を使用mllibしてローカル モードで実行できますか。この壷は大きすぎて、それくらい132 mbです。しかし、他に利用可能なjarファイルが見つかりません。このjarはインポートする唯一の方法spark-mllib.jarですか? ps 何らかの理由で、サーバーに spark をデプロイできません。だからHadoop環境は使えなかった

どうもありがとう!!!

0 投票する
2 に答える
1116 参照

scala - MLlib を使用して Spark の決定木から重要度を見つける

MLlib を使用してディシジョン ツリー用に Spark 1.0 または 1.1 を実行しています。

サンプル データでサンプル SCALA コードを実行すると、エラーは発生しませんでしたが、結果から機能の重要性を見つけることができませんでした。

値を取得する方法について、そのような情報を持っている人はいますか?