ドキュメントのセットを入力として受け取る Spark の MLLib を使用して NaiveBayes 分類器を構築しようとしています。
機能としていくつかのもの (つまり、作成者、明示的なタグ、暗黙のキーワード、カテゴリ) を入れたいのですが、ドキュメントを見ると、aLabeledPoint
には double のみが含まれているようです。つまり、 のように見えLabeledPoint[Double, List[Pair[Double,Double]]
ます。
代わりに、コードの残りの部分からの出力として得られるものは、のようなものになりますLabeledPoint[Double, List[Pair[String,Double]]
。
自分で変換できましたが、奇妙に思えます。MLLib を使用してこれを処理するにはどうすればよいですか?
答えはHashingTF
クラス (つまり、ハッシュ機能) にあると思いますが、それがどのように機能するのかわかりません。何らかの容量値が必要なようですが、キーワードとトピックのリストは実質的に制限されていません (または、より良いのは不明です)。始まり)。