約 100 kB の HTML データを解析する必要がありますが、これは単に Android で大きなパフォーマンスの問題を引き起こします。組み込みの XML パーサーと JTidy の両方を試しました。
組み込みの XML パーサーを使用すると、約 0.5 秒の解析時間が得られます。問題は、XML パーサーを使用して乱雑な HTML コードを解析するのは良くないということです。これはオプションではありません。(私は前処理を試みましたが、有効な HTML について不平を言い始めたので...)
少しググったところ、XMLパーサーに渡す前にコードをクリーンアップするためにJTidyが提案されました。これは絶対的な悪夢でした。JTidy による前処理の解析に約7 秒かかるようになりました。
だから今、私の唯一の選択肢は本当に正規表現です。どう思いますか?