1

この HTML:

<td height="79" valign="top" width="70">
            <a href="http://e.livinghuntington.com/HS?a=stuff" target="_blank" title="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive"> link link link <img alt="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive" border="0" height="79" src="http://webe.emv3.com/livinghuntington/images/tt.png" style="display:block;" width="70"/></a>
        </td>
</table>
<table>

そしてこのコード:

public void handleStartTag(Tag tag, MutableAttributeSet attr, int pos) {

     System.err.println("tag = " + tag);

次の出力が得られます。

tag = td
tag = a
tag = table

さまざまなテスト戦略を試しました。リンクをネストすると (有効な html かどうかさえわかりません)、内部リンクが正しく取得されます。リンクから画像を取り出しても、画像は取得されません。私が知る限り、画像タグはまったく取得されません。コードまたはクラッジにエラーがありますか、それともこれは HTML パーサーの取り返しのつかない問題ですか (そのため、破棄して新しいものを使用する必要があります)。

4

1 に答える 1

2

問題は、img が単純なタグであるため、startTag() の下で取得されないことでした。handleSimpleTag() は、使用するハンドラーです。

于 2012-05-02T19:37:59.773 に答える