Apache Spark を使用して、基本的な Twitter 感情分析を実行しようとしています。
以下のページでは、上記の問題の候補となる apache spark で使用される Naive Bayes 関数について説明しています。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
Javaの例で確認すると、トレーニングとテストセットは次のように与えられます
JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set
それらがどのデータ型であるかはわかりませんが、英語以外の入力であることは理解できます。
と言うつぶやきのリストがあります。
「私は自分の国を愛しています。」
「オフィスでの素晴らしい一日。」
「Google Chrome は最悪だ!」
単純ベイズ関数を使用してテキストを処理するにはどうすればよいですか?
これに関する洞察は役に立ちます。