正規表現または同様のものを使用して、ドキュメント内の重複を削除するために検索しています。以下を削除します。
First Line
<Important text /><Important text />Other random words
の重複を削除し、<some text/>
他のすべてをそのままにしておく必要があります。テキストは複数行にまたがる場合とそうでない場合があります。
いくつかの異なる単語を使用する必要がありますが、< > タグを使用してください。
編集:
どんな言葉になるかわかりません。< > タグ内にネストされるものもあれば、ネストされないものもあります。次のように、次々と繰り返されるすべての重複を削除する必要があります。
<text/><text/><words/><words/><words/>
出力は次のようになります。
<text/><words/>