java - SAX で一部の XML タグを無視する

Question

Java で SAX を使用して XML ドキュメントを解析しています。
私は、さまざまな分野の研究出版物を記述する XML を扱っています。
とりわけ、研究論文の内容を簡潔に説明する「アブストラクト」などの要素があります。そのフィールドでは基本的な HTML フォーマットを使用できますが、SAX が HTML タグ (i、b、u、sub、sup など) を実際の XML タグとして脅かし、strartElement() および endElement( ) その要素のイベント。

定義済みの XML タグのセットを無視し、それらの XML コードをそのまま characters() メソッドに渡すように SAX に指示する方法はありますか?

score 0 · Accepted Answer

なんらかの作業がなければ、そうではないと思います。さまざまな要素に遭遇したときに、さまざまな SAX ハンドラーを挿入し、それらをスタックからプッシュ/ポップするでしょう。したがって、<abstract>要素に遭遇すると、SAX パーサーが委譲する新しいハンドラーを挿入します。このハンドラーは、必要に応じて HTML 要素を処理するのに十分なほどインテリジェントです。些細な解決策ではありません。

java - SAX で一部の XML タグを無視する

1 に答える 1

Related

Reference