次のコードを使用すると、画像を正しく抽出できます。
Document doc = Jsoup.parse("<div class=\"picture\"> <img src=\"http://asdasd/aacb.jpgs\" title=\"picture\" alt=\"picture\" /> </div>");
Element elem = doc.select("div.picture img").first();
System.out.println("elem: " + elem.attr("src"));
最新のjsoup リリース1.2.2を使用しています。
img のような空のタグの内側の html を出力しようとしているのかもしれません。
ドキュメントから:「html() - 要素の内部 HTML を取得します」。
html の 2 番目の部分では、次を使用できます。
Document doc2 = Jsoup.parse("<tr> <td class=\"blackNoLine\" nowrap=\"nowrap\" valign=\"top\" width=\"25\" align=\"left\"><b>CAST: </b></td> <td class=\"blackNoLine\" valign=\"top\" width=\"416\">Jay, Shazahn Padamsee </td> </tr>");
Elements trElems = doc2.select("tr");
if (trElems != null) {
for (Element element : trElems) {
Element secondTd = element.select("td").get(1);
System.out.println("name: " + secondTd.text());
}
}
「ジェイ、シャザーン・パダムシー」を印刷します。