csv - ベストプラクティス: 「スキーマ」/「列」を変更してデータレコードを処理する方法

Question

これはベストプラクティスの質問です。

私たちのセットアップは、hdfs に (ログ) データを保存する Hadoop クラスターです。毎日 1 ファイル、csv 形式でデータを取得します。ファイルの「スキーマ」、特に列数が変更されない限り、これらのファイルに対して Hadoop で MR ジョブを実行しても問題ありません。

ただし、列が追加または削除される可能性があるという意味で、分析したいログレコードが最終的に変化するという問題に直面しています。このような状況でのベストプラクティスを喜んで共有してくださる方がいらっしゃるかと思いました。現時点で考えられる最善の方法は、データを csv ではなく json 形式で保存することです。ただし、これにより、必要なストレージ容量が (少なくとも 2 倍に) 増加します。私たちは Apache Avro と Apache Parquet にも出会い、これについて調べ始めました。

この問題に関するアイデアやコメントは大歓迎です。

score 1 · Accepted Answer

関連ファイルの入出力形式を利用するにはThriftを利用し、エレファントバード(twitter lib)を利用します。

csv - ベスト プラクティス: 「スキーマ」/「列」を変更してデータ レコードを処理する方法

1 に答える 1

Related

Reference

csv - ベストプラクティス: 「スキーマ」/「列」を変更してデータレコードを処理する方法