java - Apache Spark で Naive Bayes を使用した Twitter 感情分析

Question

Apache Spark を使用して、基本的な Twitter 感情分析を実行しようとしています。

以下のページでは、上記の問題の候補となる apache spark で使用される Naive Bayes 関数について説明しています。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

Javaの例で確認すると、トレーニングとテストセットは次のように与えられます

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

それらがどのデータ型であるかはわかりませんが、英語以外の入力であることは理解できます。

と言うつぶやきのリストがあります。

「私は自分の国を愛しています。」
「オフィスでの素晴らしい一日。」
「Google Chrome は最悪だ！」

単純ベイズ関数を使用してテキストを処理するにはどうすればよいですか?

これに関する洞察は役に立ちます。

score 2 · Accepted Answer

LabeledPoint最初のパラメーターがラベルで、2 番目のパラメーターが特徴のベクトルである形式(double, Vectors(double[]))です (非負の実数値のみ)。しかし、あなたの場合は一致しません。つまり、データを実際の値に変換する方法を見つける必要があります。TFIDFは一方向のようです。理解を深めるために、この例を読むことに興味があるかもしれません。

java - Apache Spark で Naive Bayes を使用した Twitter 感情分析

1 に答える 1

Related

Reference