XMLタグではないすべての「<」または「>」を見つけるには、正規表現が必要です。
例:
<tag1>W<E><E</tag1>Z<>S
見つける必要があります
<><<>
例:
<tag1>W<E><E</E></tag1>Z<>S
見つける必要があります
<<>
そのため、'<' または '>' がタグに含まれていないヒット (はい、考慮すべき自己終了タグもあります :)
編集 #2: 最後にやりたいことは、すべての一致を html エンコードされた値に置き換えることです。
編集#3:
したがって、私がやりたいことは、いくつかの追加タグ (既知のタグはほとんどありません) を含む HTML を含むテキストから、タグに含まれていないすべての '<' と '>' を取得することです。
例 (太字のものは見つけたいので、エンコードされた値に置き換えることができます):
<div>
<a href="link">Link with < characters</a>
<knownTag>Text with character ></knownTag>
<knownTag>Text < again ></knownTag>
<div>
結果は次のようになります。
<div>
<a href="link">Link with < characters</a>
<knownTag>Text with character ></knownTag>
<knownTag>Text < again ></knownTag>
<div>
この問題を解決する方法について何か考えはありますか?