0

私はMRとHadoopの分野の初心者です。csvファイルで欠落しているものを見つけるためのMRを作成しましたが、正常に機能しています。これで、csvファイルを解析し、関連するカテゴリでコーディングする必要があるユースケースがあります。

例: "11、abc、xyz、51,61,78"、 "11、adc、ryz、41,71,38"、............。

これを「1、abc、xyz、5,6,7」、「1、adc、ryz、4,7,3」、............に置き換える必要があります。

ここで私は10のmodを実行していますが、modのさまざまなケースがあります。データサイズはGB単位です。

入力の代わりにコンテンツを置き換える方法を知りたいです。これはMRで達成できますか?

基本的に、ファイルの処理や書き込みベースのHadoopの例はどこにも見たことがありません。

この時点で、HBaseや他のデータベースツールには行きたくありません。

4

1 に答える 1

1

HDFSファイルは追加のみであり、編集できないため、データをその場で置き換えることはできません。
目標を達成するための最も簡単な方法は、データを外部テーブルとしてHiveに登録し、HQLで変換を書き込むことだと思います。
Hiveは、Hadoopの脇にあり、クエリをMRJobsに変換するシステムです。HBASEの使用法として、その使用法はインフラストラクチャの重大な決定ではありません

于 2012-04-24T07:46:32.217 に答える