タグABのすべての出現を抽出したいXMLファイルがあります。このファイルは、最大 500,000 文字の長い 1 行です。
今、私は正規表現などについて知っていますが、それを試しsed
てタグ内の文字のみを抽出しようとすると、結果に関して完全に失われます:)。
これが私のコマンドです:
sed -r 's/(.*)<my_tag>([A-Z][A-Z])<\/my_tag>(.*)/hello\2/g' myfile.out
ファイル全体を「helloAB」のみで変換します。たとえば、期待されるには少なくとも100以上の一致が含まれている必要があります。
だから私は貪欲なマッチングなどの概念について考えていますが、どこにも行きません。たぶんawk
、より良いアイデアですか?