XHTMLを消費する小さなスクリーンスクレイピングアプリを書いています。XHTMLが無効であることは言うまでもありません。アンパサンドはとしてエスケープされません&
。
私はAndroidを使用XmlPullParser
していますが、正しくエンコードされていない値に対して次のエラーが発生します。
org.xmlpull.v1.XmlPullParserException: unterminated entity ref
(position:START_TAG <a href='/Fahrinfo/bin/query.bin/dox?ld=0.1&n=3&i=9c.0323581.1266265347&rt=0&vcra'>
@55:134 in java.io.InputStreamReader@43b1ef70)
これを回避するにはどうすればよいですか?私は次の解決策について考えました:
InputStream
アンパサンドをエンティティ参照に置き換える別のものでラップする- 誤ったマークアップを魔法のように受け入れるようにパーサーを構成する
どちらがより成功する可能性がありますか?