問題タブ [apache-spark-mllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Spark で Naive Bayes を使用した Twitter 感情分析
Apache Spark を使用して、基本的な Twitter 感情分析を実行しようとしています。
以下のページでは、上記の問題の候補となる apache spark で使用される Naive Bayes 関数について説明しています。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
Javaの例で確認すると、トレーニングとテストセットは次のように与えられます
それらがどのデータ型であるかはわかりませんが、英語以外の入力であることは理解できます。
と言うつぶやきのリストがあります。
「私は自分の国を愛しています。」
「オフィスでの素晴らしい一日。」
「Google Chrome は最悪だ!」
単純ベイズ関数を使用してテキストを処理するにはどうすればよいですか?
これに関する洞察は役に立ちます。
apache-spark - Spark の MLlib で使用するための TFIDF 生成中のメモリ不足例外
MLlib の Naive Baye の分類実装を使用してドキュメント分類に使用する TFIDF ベクトルを作成しているときに、メモリ オーバーフローの問題が発生しました。
すべての用語の idfs を収集しているときに、メモリ オーバーフローと GC の問題が発生します。規模を把握するために、HBase から約 615,000 (約 4 GB のテキスト データ) の小さなサイズのドキュメントを読み取り、8 コアと 6 GB のエグゼキューター メモリで spark プログラムを実行しています。並列処理レベルとシャッフル メモリ部分を増やしてみましたが、役に立ちませんでした。
この OOM の問題を解決するにはどうすればよいですか?
ありがとう
java - 「java -jar」で実行されるsparkアプリケーションの時間を短縮する方法
Spark アプリケーションを 2 つの方法で実行します。アプリケーションは、MlLib を使用した単純ベイズ学習です。
- "spark-submit" を使用: その後、一連のデータに対して正常に実行されます。
- 「java -jar」を使用する場合: ケース 1 からさらに時間がかかります。
どちらの場合も、同じデータ セットと同じ構成があります。
「java -jar」を使用してスパークアプリケーションを実行する時間を短縮するのに役立つ人は誰でもいます。
scala - Spark MLLib 線形回帰モデルの切片は常に 0.0 ですか?
私は ML と Apache Spark を使い始めたばかりなので、Spark の例に基づいて線形回帰を試しています。例のサンプル以外のデータに対して適切なモデルを生成できないようで、入力データに関係なく、切片は常に 0.0 です。
関数に基づいて簡単なトレーニング データセットを用意しました。
y = (2*x1) + (3*x2) + 4
つまり、切片が 4 で、重みが (2, 3) であると予想します。
生データに対して LinearRegressionWithSGD.train(...) を実行すると、モデルは次のようになります。
そして、予測はすべて NaN です。
等
最初にデータをスケーリングすると、次のようになります。
等
私は何か間違っているか、このモデルからの出力がどうあるべきか理解していません。
私のコードは以下の通りです:
apache-spark - マルチクラスを含むLibSVMファイルをRDD[labelPoint]に変換する方法
org.apache.spark.mllib.util.MLUtils パッケージの次のメソッドを使用して、LIBSVM 形式のバイナリ ラベル付きデータを RDD[LabeledPoint] にロードします。機能の数は自動的に決定され、デフォルトのパーティション数になります。
私の問題は、マルチクラス ラベルを使用してデータをロードすることですか? マルチクラスのラベル付きデータでこのメソッドを使用すると...バイナリのラベル付きデータに変換されます..LibSVM形式のマルチクラスデータをRDD [LabeledPoint]にロードする方法はありますか...??
同じパッケージに、次の説明を持つメソッドがもう 1 つあります。
デフォルトのパーティション数で、ラベル付きデータを LIBSVM 形式で RDD[LabeledPoint] にロードします。
しかし、これを使用しようとすると、「int が見つかりました。Boolean が必要です」というエラーが表示されます。
apache-spark - Spark MatrixFactorizationModel ですべてのユーザーと製品の組み合わせをスコアリングする方法は?
MatrixFactorizationModelが与えられた場合、ユーザー製品予測の完全なマトリックスを返す最も効率的な方法は何でしょうか (実際には、スパース性を維持するために何らかのしきい値でフィルター処理されます)?
現在の API を介して、user-product のデカルト積を予測関数に渡すことができましたが、これは多くの余分な処理を行うように思えます。
プライベートな userFeatures、productFeatures へのアクセスは正しいアプローチでしょうか?もしそうなら、フレームワークの他の側面を利用してこの計算を効率的な方法で分散する良い方法はありますか? 具体的には、userFeature、productFeature のすべてのペアを「手で」乗算するよりも簡単に行う方法はありますか?
apache-spark - Mac OS X への Spark MLLib のインストール
Mac OS X に MLLib をインストールしようとしています。Linux では、この投稿 ( Apache Spark -- MlLib -- Collaborative filtering ) に従って gfortran をインストールする必要がありました。Mac に gfortran をインストールしました。ただし、実行すると:
私は得ています:
Mac に MLLib を正常にインストールするための手順がわかりません。Mac OS 10.9 と Spark 1.1.0 (ビルド済み) を実行しています。