開始タグに終了タグを追加してクリーンアップしようとしている SGML がいくつかあります。現在、ドキュメントは次のような構造になっています。
<CAT>
<NAME>Daniel
<COLOR>White
<DESC>Daniel is a white cat <p>He was born in July</p><br />He's super cute.<p><br />He does not have any siblings.
<COUNTRY>USA
</CAT>
これまでのところ、この正規表現を使用して、開始タグを照合し、コンテンツをグループとしてキャプチャでき
<NAME>([^\\<]+)[^<]
ます。しかし、そうすると、パターンマッチングは最初の直前で停止します<p>
</p>
<br />
<DESC>([^\\<]+)[^<]
<p>
パターンの最後として使用<
している理由は、他のすべての開いているノードには、一致を停止する html 要素がないためです。
、、およびノードの前で終わる<DESC>
ノードに一致する正規表現を作成するにはどうすればよいですか? <p>
</p>
<br />
<COUNTRY>