タグのようなxmlと多数の無効なxmlデータを含むファイルがあります。そのため、ファイルでxmllintのような通常のxmlバリデーターを使用できません。無効なxmlデータを無視して、ファイルの形式が正しいかどうかを確認したいと思います。
<?xml version="1.0" encoding="utf-8"?>
<HOST>
<VERSION>5</VERSION>
<OUTPUT>
bunch of text which also contains tags like <SYSTEM>
more tags like <-> <temp> & ;
some more text and numbers
</OUTPUT>
</HOST>
上記の例では、<system>、<->、&、;などのタグを無視できますか?など、<HOST> </ HOST> <VERSION></VERSION>や<OUTPUT></OUTPUT>などの有効な開始タグと終了タグを確認してください。上記のファイルは、すべての有効なタグに適切な開始ブラケットと終了ブラケットがあるため、整形式であると言って戻る必要があります。
独自のdtd/xsdを作成できますか?必要なタグを探し、Perlを使用して残りのタグを無視します。
私の主な問題は、私の問題を説明するための正しいキーワードがわからないことです。そのため、グーグルは私に正しい結果を与えていません。誰かが私を正しい方向に押してくれませんか。ありがとう