0

ビッグデータ処理に Amazon EMR Hadoop Hive を使用しています。ログ ファイルの現在のデータは CSV 形式です。ログファイルからテーブルを作成するために、データを解析して外部テーブルの異なる列に保存する正規表現を作成しました。SerDe を使用して JSON 形式のデータを読み取ることができることはわかっています。これは、ログ ファイルの各行を JSON オブジェクトとして扱うことができることを意味します。ログ ファイルが CSV 形式と比較して JSON 形式である場合、Hadoop のパフォーマンス上の利点はありますか。

4

1 に答える 1

0

テーブルの出力 (正規表現で作成したもの) を処理できる場合、なぜ別の処理を行うのでしょうか? 不必要なものを避けるようにしてください。

ここでの主な問題は、どちらの形式が読みやすいかということだと思います。CSV は JSON よりも高速であると信じていますが、私の言葉を信じないでください。Hadoop は本当に気にしません。彼にとっては、一度メモリに格納されたすべてのバイト配列です。

于 2012-08-01T15:44:04.117 に答える