入力ファイルから文字列を解析する必要があります。これらの文字列はHadoopで必要です。問題は、これらの文字列がマークアップタグに含まれていることです。
誰かが私にパターンを提案して、それらを一致させて保存することはできますか
<id>INIcE89C561</id> <id>INIcE89C560</id> <id>Q1S5WLipQW2</id>
idタグの間に文字列が必要です。すべてのタグは異なる入力ファイルからのものです。それらを値として使用する必要があります。キーと値のペア。