0

大きな単一行ファイルを読み取り、それを大きな複数行ファイルに分割する PIG スクリプトを作成しようとしています。文字列「アラート」または「なし」を見つけたときに、テキストを分割しようとしています。

私のスクリプトは次のとおりです。

data = LOAD '/myfile' USING TextLoader() as (line:chararray);
data_split = FOREACH data GENERATE FLATTEN (STRSPLIT(line, '/none|alert/')) as line:chararray);

これを正しく分割したことを検証するために、次を使用してカウントを生成しています。

x = GROUP data_split by line; 
count = foreach x GENERATE COUNT(data_split);
dump count;

これは常に 1 を返します。これはおそらく、これを正しく分割していないためです。どんな助けでも大歓迎です。

4

1 に答える 1