1

Apache Spark を使用して、基本的な Twitter 感情分析を実行しようとしています。

以下のページでは、上記の問題の候補となる apache spark で使用される Naive Bayes 関数について説明しています。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

Javaの例で確認すると、トレーニングとテストセットは次のように与えられます

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

それらがどのデータ型であるかはわかりませんが、英語以外の入力であることは理解できます。

と言うつぶやきのリストがあります。

「私は自分の国を愛しています。」
「オフィスでの素晴らしい一日。」
「Google Chrome は最悪だ!」

単純ベイズ関数を使用してテキストを処理するにはどうすればよいですか?

これに関する洞察は役に立ちます。

4

1 に答える 1

2

LabeledPoint最初のパラメーターがラベルで、2 番目のパラメーターが特徴のベクトルである形式(double, Vectors(double[]))です (非負の実数値のみ)。しかし、あなたの場合は一致しません。つまり、データを実際の値に変換する方法を見つける必要があります。TFIDFは一方向のようです。理解を深めるために、この例を読むことに興味があるかもしれません。

于 2014-09-19T12:33:43.290 に答える