16

Spark MLlib Guideに従って、 Spark には 2 つの機械学習ライブラリがあることがわかります。

  • spark.mllib、RDD の上に構築されます。
  • spark.ml、データフレームの上に構築されます。

thisおよびthis question on StackOverflow によると、データフレームは RDD よりも優れている (そして新しい) ため、可能な限り使用する必要があります。

問題は、一般的な機械学習アルゴリズム (例: Frequent Pattern MiningNaive Bayesなど)を使用したいのですが、 spark.ml(データフレームの場合) そのようなメソッドを提供せず、spark.mllib(RDD の場合) のみがこのアルゴリズムを提供することです。

データフレームが RDD よりも優れており、参照されているガイドで の使用が推奨されている場合、そのライブラリにspark.ml一般的な機械学習手法が実装されていないのはなぜですか?

ここで欠けている点は何ですか?

4

1 に答える 1