hadoop - Amazon EMR JSON

Question

ビッグデータ処理に Amazon EMR Hadoop Hive を使用しています。ログファイルの現在のデータは CSV 形式です。ログファイルからテーブルを作成するために、データを解析して外部テーブルの異なる列に保存する正規表現を作成しました。SerDe を使用して JSON 形式のデータを読み取ることができることはわかっています。これは、ログファイルの各行を JSON オブジェクトとして扱うことができることを意味します。ログファイルが CSV 形式と比較して JSON 形式である場合、Hadoop のパフォーマンス上の利点はありますか。

score 0 · Accepted Answer

テーブルの出力 (正規表現で作成したもの) を処理できる場合、なぜ別の処理を行うのでしょうか? 不必要なものを避けるようにしてください。

ここでの主な問題は、どちらの形式が読みやすいかということだと思います。CSV は JSON よりも高速であると信じていますが、私の言葉を信じないでください。Hadoop は本当に気にしません。彼にとっては、一度メモリに格納されたすべてのバイト配列です。

hadoop - Amazon EMR JSON

1 に答える 1

Related

Reference