HTML内の重複する属性を削除/無視する必要があります。xerces2htmlパーサーを使用します。タグ内の属性が重複しているHTMLファイルは解析されません。
例:
<img src="url" width="100" height="200" width="123">
HTML内の重複する属性を削除/無視する必要があります。xerces2htmlパーサーを使用します。タグ内の属性が重複しているHTMLファイルは解析されません。
例:
<img src="url" width="100" height="200" width="123">
Cyber neko html parser を試して、html ファイルを解析できます。 http://sourceforge.net/projects/nekohtml/