2

次の形式のデータ ファイルがあります。

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

分析のためにHadoop/pig/whateverを使用してこのファイルを読み取る最良の方法は何ですか?

4

1 に答える 1

1

データの書き込み方法を制御できる方法はありますか? これをタブ区切りに移動するプロセスを書くと、すぐにこれを行うのに役立ちます。

それ以外の場合は、(Pig または Java MapReduce で) カスタム レコード リーダーを作成することが唯一の選択肢になる可能性があります。どちらも非常に難しいことではありません。

于 2011-07-18T17:41:04.607 に答える