Hadoop map reduce フレームワークは初めてで、hadoop map reduce を使用してデータを解析することを考えています。何千もの大きな区切りファイルがあり、これらのファイルを解析してハイブ データ ウェアハウスにロードするためのマップ削減ジョブを作成することを考えています。これらのファイルを解析できるパーサーを perl で作成しました。しかし、私はHadoop map reduceで同じことをすることに行き詰まっています
例: x=ay=bz=c..... x=py=qz=s..... x=1 z=2 .... のようなファイルがあります。
このファイルをハイブテーブルの列 (x、y、z) としてロードする必要がありますが、続行できるかどうかわかりません。これに関するガイダンスは本当に役に立ちます。
これを行う際の別の問題は、フィールド y が欠落しているファイルがいくつかあることです。その条件を map reduce ジョブに含める必要があります。これまでのところ、streaming.jar を使用して、parser.pl をその jar ファイルへの入力としてマッパーとして指定してみました。私はそれを行う方法ではないと思います:)、しかし私はそれがうまくいくかどうか試していました. また、Hive のロード機能を利用することも考えましたが、Hive テーブルで regexserde を指定すると、列が欠落して問題が発生します。
私は今これに迷っています。誰かが私をこれで案内してくれるなら、私は感謝します:)
よろしく、アトゥル