大きな XML ダンプに豚ラテン語を使用しています。豚ラテン語で xml ノードの値を取得しようとしています。ファイルは次のようなものです
< ユーザー名>Shujaat< /ユーザー名>
入力Shujaatを取得したい。piggybank XMLLoader を試しましたが、xml タグとその値も分離するだけです。コードは
register piggybank.jar;
A = load 'username.xml' using org.apache.pig.piggybank.storage.XMLLoader('username')
as (x: chararray);
B = foreach A generate x;
このコードは、ユーザー名タグと値も提供します。値だけが必要です。それを行う方法はありますか?正規表現は知ったけどあまり知らなかった?ありがとう