これはベスト プラクティスの質問です。
私たちのセットアップは、hdfs に (ログ) データを保存する Hadoop クラスターです。毎日 1 ファイル、csv 形式でデータを取得します。ファイルの「スキーマ」、特に列数が変更されない限り、これらのファイルに対して Hadoop で MR ジョブを実行しても問題ありません。
ただし、列が追加または削除される可能性があるという意味で、分析したいログレコードが最終的に変化するという問題に直面しています。このような状況でのベスト プラクティスを喜んで共有してくださる方がいらっしゃるかと思いました。現時点で考えられる最善の方法は、データを csv ではなく json 形式で保存することです。ただし、これにより、必要なストレージ容量が (少なくとも 2 倍に) 増加します。私たちは Apache Avro と Apache Parquet にも出会い、これについて調べ始めました。
この問題に関するアイデアやコメントは大歓迎です。