サーバーログの大規模なログ分析にPIGを活用することを目指しています。ファイルから PIG マップ データ型をロードする必要があります。
以下のデータでサンプルの PIG スクリプトを実行してみました。
「test」という名前の CSV ファイルの行 (PIG によって処理される) は、次のようになります。
151364,[ref#R813,highway#secondary]
私のPIGスクリプト
a = LOAD 'test' using PigStorage(',') AS (id:INT, m:MAP[]);
DUMP a;
アイデアは、int と 2 番目の要素をハッシュマップとしてロードすることです。ただし、ダンプすると、int フィールドは正しく解析されますが (ダンプに出力されます)、map フィールドは解析されず、解析エラーが発生します。
何かが足りない場合、誰かが説明してもらえますか?