Pig では、2 つのファイルを読み込んでグループ化しています。私はこのようなものになります:
A = LOAD 'File1' Using PigStorage('\t');
B = LOAD 'File2' Using PigStorage('\t');
C = COGROUP A BY $0, B BY $0;
STORE C INTO 'Output' USING PigStorage('\t');
出力:
123 {(123,XYZ,456)} {(123,QRS,889,QWER)}
最初のフィールドがグループ キーで、最初のバッグは File1 からのもので、次のバッグは File2 からのものです。これら 3 つのセクションは、PigStorage('\t') 句で特定したものを使用して互いに区切られています。
質問: Pig にコンマ以外でバッグを区切らせるにはどうすればよいですか? 実際のデータにはコンマが含まれているため、代わりにタブで区切る必要があります。
望ましい出力:
123 {(123\tXYZ\t456)} {(123\tQRS\t889\tQWER)}