私はApache Sparkの初心者です。
私の仕事は、2 つの CSV ファイルを読み取り、そこから特定の列を選択し、マージして集計し、結果を 1 つの CSV ファイルに書き込むことです。
例えば、
CSV1
name,age,deparment_id
CSV2
department_id,deparment_name,location
で 3 つ目の CSV ファイルを取得したい
name,age,deparment_name
両方の CSV をデータフレームにロードしています。そして、join,select,filter,drop
データフレームに存在するいくつかのメソッドを使用して3番目のデータフレームを取得できます
私はまた、いくつかを使用して同じことを行うことができますRDD.map()
hiveql
また、次を使用して実行することで同じことを行うこともできますHiveContext
CSV ファイルが巨大な場合、どの方法が効率的かを知りたいのですが、その理由は何ですか?