NaiveBayes マルチクラス分類器を構築するために、CrossValidator を使用してパイプラインで最適なパラメーターを選択しています。
val cv = new CrossValidator()
.setEstimator(pipeline)
.setEstimatorParamMaps(paramGrid)
.setEvaluator(new MulticlassClassificationEvaluator)
.setNumFolds(10)
val cvModel = cv.fit(trainingSet)
パイプラインには、通常のトランスフォーマーと推定器が次の順序で含まれています: Tokenizer、StopWordsRemover、HashingTF、IDF、そして最後に NaiveBayes。
最適なモデルについて計算された指標にアクセスすることは可能ですか?
理想的には、すべてのモデルのメトリックにアクセスして、パラメーターを変更すると分類の品質がどのように変化するかを確認したいと考えています。しかし、現時点では、最高のモデルで十分です。
参考までに、私はSpark 1.6.0を使用しています