spark 2.0.1 から始めて、いくつか質問がありました。多くのドキュメントを読みましたが、これまでのところ十分な答えが見つかりませんでした:
- 違いは何ですか
df.select("foo")
df.select($"foo")
- 私はそれを正しく理解していますか
myDataSet.map(foo.someVal)
タイプセーフであり、変換されませんRDD
が、DataSet 表現にとどまります / 追加のオーバーヘッドはありません (2.0.0 のパフォーマンスに関して)
- select などの他のすべてのコマンドは、単なるシンタックス シュガーです。タイプセーフではなく、代わりにマップを使用できます。
df.select("foo")
map ステートメントなしでタイプセーフにする にはどうすればよいですか?- マップの代わりに UDF / UADF を使用する必要があるのはなぜですか (マップがデータセット表現にとどまると仮定して)?