XMLStreamReader でエスケープ文字を読み取るで見られるように、この質問は以前に出てきたようです
しかし、私がここで見ている問題は少し異なります。
タグ値の 1 つとして不正な形式の html の大きなスニペットを含む、かなり大きな XML ファイルを読み込んでいます。値は CDATA で囲まれており、通常は問題を引き起こしません。しかし、断続的に、XMLSTreamReader クラスの getText メソッドはこの CDATA のテキストの半分しか読み取らず、次のバッチの最初の文字は例として「<table>」であり、パーサーはこれを文字ではなく開始ノードとして処理し、解析が失敗します。
以前に Stax パーサーでこの問題に遭遇した人はいますか。jdk1.,5 で sjsxp1.0.1 実装を使用しています。
私は今すべてのアイデアを持っていないので、助けやワイルドなアイデアをいただければ幸いです。