豚を使用して生のテキストから電子メールの詳細を抽出しようとしています。
サンプルデータは次のとおりです。
Sample data for email abc.123@gmail.com
Sample data for email xyz@abc.com
私は REGEX メソッドを試しています。私が取った正規表現: http://www.mkyong.com/regular-expressions/how-to-validate-email-address-with-regular-expression/
スクリプトは次のとおりです。
A = Load '----' using PigStorage as (value: chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(value, '^[_A-Za-z0-9-\\+]+(\\.[_A-Za-z0-9-]+)*@[A-Za-z0-9-]+(\\.[A-Za-z]{2,})$')) AS (f1: chararray)
dump B;
出力を端末にダンプした後、空白の出力が得られます。
()
()
スクリプトの構文に問題はありますか?
正規表現の記述に関してもいくつかのリンクを共有してください。非常に役立ちます。
あなたの助けに感謝します、ありがとう。