Spark MLlib Guideに従って、 Spark には 2 つの機械学習ライブラリがあることがわかります。
spark.mllib
、RDD の上に構築されます。spark.ml
、データフレームの上に構築されます。
thisおよびthis question on StackOverflow によると、データフレームは RDD よりも優れている (そして新しい) ため、可能な限り使用する必要があります。
問題は、一般的な機械学習アルゴリズム (例: Frequent Pattern Mining、Naive Bayesなど)を使用したいのですが、 spark.ml
(データフレームの場合) そのようなメソッドを提供せず、spark.mllib
(RDD の場合) のみがこのアルゴリズムを提供することです。
データフレームが RDD よりも優れており、参照されているガイドで の使用が推奨されている場合、そのライブラリにspark.ml
一般的な機械学習手法が実装されていないのはなぜですか?