私はAmazonのエラスティックマップリデュースを使用しています。
このようなログファイルがあります
random text foo="1" more random text foo="2"
more text notamatch="5" noise foo="1"
blah blah blah foo="1" blah blah foo="3" blah blah foo="4" ...
'foo'式のすべての数値を選択するためにpig式を作成するにはどうすればよいですか?
私は次のようなタプルを好みます:
(1,2)
(1)
(1,3,4)
私は次のことを試しました:
TUPLES = foreach LINES generate FLATTEN(EXTRACT(line,'foo="([0-9]+)"'));
ただし、これにより、各行の最初の一致のみが生成されます。
(1)
(1)
(1)