スパークを使い始める方法flatmap
またはデータフレームを知りたいexplode
です。
を使用して作成されdf.groupBy("columName").count
、収集すると次の構造になります。
[[Key1, count], [Key2, count2]]
しかし、私はむしろ次のようなものが欲しいです
Map(bar -> 1, foo -> 1, awesome -> 1)
このようなことを達成するための適切なツールは何ですか? フラットマップ、エクスプロージョンか何か?
コンテキスト: spark-jobserver を使用したいです。後者の形式でデータを提供した場合にのみ、意味のある結果(たとえば、機能するjsonシリアル化)を提供するようです