“apache-spark-mllib”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

243 参照

apache-spark - Spark の MLlib で Naive Baye の事後確率にアクセスする

Java を使用して MLlib で Naive Baye の予測の事後確率にアクセスしようとしています。メンバー変数 brzPi と brzTheta はプライベートなので、リフレクションを介して値にアクセスするためのハックを適用しました。

私は Java を使用していますが、そよ風のライブラリを Java で使用する方法が見つかりませんでした。私が正しければ、関連する計算は NaiveBayesModel クラスの 66 行目に示されています。

labels(brzArgmax(brzPi + brzTheta * testData.toBreeze))

ここでは、DenseVectors の要素ごとの加算と乗算は、Java では直接アクセスできない演算子として与えられます。また、brzArgmax の使用は、Java ではあまり明確ではありません。

上記の計算をScalaからJavaに変換するのを手伝ってくれませんか。

PS: MLlib でこれらの変数を外部から直接アクセスできるようにするために、Jira で改善要求を出しました。

ありがとう、ジャティン

apache-spark apache-spark-mllib

2014-11-26T06:48:52.560

0 投票する

1 に答える

467 参照

scala - コードでプライベート関数 [mllib] を使用するにはどうすればよいですか?

私はspark、特にmllibライブラリを使い始めました。関数のいくつかは、スコープとプライベートステートメントが制限されています。これらの関数をコードで使用するにはどうすればよいですか? 例: KMeans.scala

kmeans を拡張するクラスを作成し、この関数を使用しようとすると、アクセスできないように見えます。次のエラーが表示されます。

これを回避する方法の例を誰か教えてもらえますか? 感謝と敬意

2014-11-27T15:08:39.253

0 投票する

0 に答える

15887 参照

apache-spark - 奇妙なorg.apache.spark.SparkException:ステージの失敗によりジョブが再び中止されました

Spark アプリケーションをスタンドアロンモードでデプロイしようとしています。このアプリケーションでは、tf-idf ベクトルを使用して単純ベイズ分類器をトレーニングしています。

この投稿と同様の方法でアプリケーションを作成しました ( LogisticRegression の Spark MLLib TFIDF 実装) 違いは、各ドキュメントを取得し、トークン化して正規化することです。

したがって、Document の各コピーには、正規化されたドキュメントテキストを文字列リスト (単語のリスト) として含む textField と、ドキュメントのラベルを double として含む labelField があります。parsingFunction には map や flatMap などの Spark 関数はありません。そのため、データ配布関数は含まれていません。

アプリケーションをローカルモードで起動すると問題なく動作し、予測モードでは分類器がテストドキュメントを正しく分類しますが、スタアロンモードで起動しようとすると問題が発生します -

1 台のマシンでマスターノードとワーカーノードを起動すると、アプリケーションは動作しますが、予測の結果はローカルモードよりも悪くなります。あるマシンで master を起動し、別のマシンで worker を起動すると、次のエラーでアプリケーションがクラッシュします。

私が見つけたログで：

アプリケーションをデバッグしたところ、次のコードの後にクラッシュすることがわかりました。

多分誰かが何が起こっているのか知っていますか？

ありがとうございました。

PS Windows 7 64 ビットで Spark 1.1.0 を使用しています。どちらのマシンも 8 コアの CPU と 16 GB の RAM を搭載しています。

apache-spark apache-spark-mllib tf-idf

2014-12-02T09:13:12.730

0 投票する

2 に答える

1536 参照

java - Spark MLlib で Java から Breeze を使用する

Java から MLlib を使用しようとしているときに、簡単なマトリックス操作を使用する正しい方法は何ですか? たとえば、scala での乗算では、単純に " matrix * vector" です。対応する機能は Java でどのように表現されますか?

" " のようなメソッドがあり$colon$times、正しい方法で呼び出すことができます

オペレーターインスタンスが必要になるかもしれません...breeze.linalg.operators.OpMulMatrix.Impl2 しかし、正確に型指定されたどのOperationインスタンスとパラメーターを使用するのでしょうか?

java scala apache-spark apache-spark-mllib scala-breeze

2014-12-02T09:50:19.440

0 投票する

1 に答える

363 参照

apache-spark - スタンドアロンクラスタでの Spark のアプリケーションの効率が低い

スタンドアロンクラスターで spark アプリケーションを実行しようとしています。このアプリケーションでは、tf-idf ベクトルを使用して単純ベイズ分類器をトレーニングしています。

この投稿と同様の方法でアプリケーションを作成しました ( LogisticRegression の Spark MLLib TFIDF 実装)。主な違いは、各ドキュメントを取得し、トークン化して正規化することです。

parsingFunction には map や flatMap などの Spark 関数はありません。そのため、データ配布関数は含まれていません。

私のクラスタは - 1 台のマスターマシンと 2 台の別のマシン - ノードです。すべてのマシンに 8 コアの CPU と 16 GB の RAM が搭載されています。20 個のテキストファイル (それぞれ ~ 100 KB - 1.5 MB) で分類子をトレーニングしようとしています。私は分散ファイルシステムを使用せず、ファイルをノードに直接配置します。

問題は、クラスターが思ったほど速く動作しないことです - 分類子は約 5 分間トレーニングされました... ローカルモードでは、この操作にかかる時間ははるかに短くなりました。

何に注意すればよいですか？

アドバイスをいただければ幸いです。

ありがとう！

apache-spark apache-spark-mllib

2014-12-03T20:20:55.737

0 投票する

1 に答える

517 参照

java - Web プロジェクトで spark mllib を使用する方法

mllib.jarWeb プロジェクトでspark を使用しようとしています。ダウンロードspark-1.1.0-bin-hadoop2.4して解凍しました。次のように見つかったいくつかのjarがあります。

datanucleus-api-jdi-3.2.1.jar

datanucleus-core-3.2.2.jar

datanucleus-rdbms-3.2.1.jar

スパークアセンブリ-1.1.0-hadoop2.4.0.jar

spark-examples-1.1.0-hadoop2.4.0.jar

次にspark-assembly-1.1.0-hadoop2.4.0.jar、分類方法をインポートするために使用します。Java プロジェクトで正常に実行できます。ただし、jar をに追加すると、次のSomeWebProject/web-inf/libエラーメッセージが表示されます。

私のWebプロジェクトのjavax.servletクラスがspark jarで複製されているので、私はそれを知っています。スパークのを削除しようとしていjavax.servletます。まだ機能していません。

見分ける方法を教えてください

と

他の Spark jar を使用mllibしてローカルモードで実行できますか。この壷は大きすぎて、それくらい132 mbです。しかし、他に利用可能なjarファイルが見つかりません。このjarはインポートする唯一の方法spark-mllib.jarですか? ps 何らかの理由で、サーバーに spark をデプロイできません。だからHadoop環境は使えなかった

どうもありがとう！！！

java hadoop apache-spark apache-spark-mllib

2014-12-04T02:18:58.777

0 投票する

2 に答える

1116 参照

scala - MLlib を使用して Spark の決定木から重要度を見つける

MLlib を使用してディシジョンツリー用に Spark 1.0 または 1.1 を実行しています。

サンプルデータでサンプル SCALA コードを実行すると、エラーは発生しませんでしたが、結果から機能の重要性を見つけることができませんでした。

値を取得する方法について、そのような情報を持っている人はいますか?

scala apache-spark decision-tree apache-spark-mllib

2014-12-04T07:55:00.497

問題タブ [apache-spark-mllib]

Reference