ここに示すように、異常なXML構造を解析したいと思います。テキストの開始と終了をマークするために、2つの自動終了タグが使用されます。したがって、テキストはタグ分割内にありません。
<article>
<sec>
<clause id="31"/>This says thirty-one <clause_end/>
<clause id="32"/>This says thirty-two <clause_end/>
</sec>
</article>
レガシードキュメントはXMLの個別の階層要件にはあまり適していないため、このスキーマは問題を回避しようとします。
- XMLの適切な実装と一致していますか?
- XMLパーサーを適用する方法についてアドバイスはありますか?
元の構造を維持することが望ましいですが、答えが「いいえ」の場合は、次のことを行う必要があります。
- 通常どおりテキストにタグを付ける代替スキーマを作成します
<clause id="32"> text </clause>
。 - を妨げる他のタグを取り除いて、ドキュメントを整形式にし
<clause>
ます。見逃しがちなことは何もないと確信しています。
ちなみに、このスキーマが私が思うほど逸脱していると仮定して、開発者を困惑させたくない場合を除いて、ライブファイルにリンクできれば幸いです。;-)
九九からの回答に基づく...
- XMLの適切な実装と一致していますか?
- 。。。おそらく
- XMLパーサーを適用する方法についてアドバイスはありますか?
- 。。。可能な場合は解析しますが、スキーマのこのレベルでは、文字列を処理する必要があります。
既存の構造を維持するかもしれませんが、1つの小さな拡張機能を導入します。
<article>
<sec>
<clause id="31"/>This says thirty-one <clause_end id="31"/>
<clause id="32"/>This says thirty-two <clause_end id="32"/>
</sec>
</article>