大きな単一行ファイルを読み取り、それを大きな複数行ファイルに分割する PIG スクリプトを作成しようとしています。文字列「アラート」または「なし」を見つけたときに、テキストを分割しようとしています。
私のスクリプトは次のとおりです。
data = LOAD '/myfile' USING TextLoader() as (line:chararray);
data_split = FOREACH data GENERATE FLATTEN (STRSPLIT(line, '/none|alert/')) as line:chararray);
これを正しく分割したことを検証するために、次を使用してカウントを生成しています。
x = GROUP data_split by line;
count = foreach x GENERATE COUNT(data_split);
dump count;
これは常に 1 を返します。これはおそらく、これを正しく分割していないためです。どんな助けでも大歓迎です。