私はMRとHadoopの分野の初心者です。csvファイルで欠落しているものを見つけるためのMRを作成しましたが、正常に機能しています。これで、csvファイルを解析し、関連するカテゴリでコーディングする必要があるユースケースがあります。
例: "11、abc、xyz、51,61,78"、 "11、adc、ryz、41,71,38"、............。
これを「1、abc、xyz、5,6,7」、「1、adc、ryz、4,7,3」、............に置き換える必要があります。
ここで私は10のmodを実行していますが、modのさまざまなケースがあります。データサイズはGB単位です。
入力の代わりにコンテンツを置き換える方法を知りたいです。これはMRで達成できますか?
基本的に、ファイルの処理や書き込みベースのHadoopの例はどこにも見たことがありません。
この時点で、HBaseや他のデータベースツールには行きたくありません。