以下のようないくつかの同様の構造を含むソースを含む Web ページがあります。
<tr>
<td width="10%" bgcolor="#FFFFFF"><font class="bodytext9">1-Jun-2013</font></td>
<td width="4%" bgcolor="#FFFFFF" align=center><font class="bodytext9">Sat</font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9">Another Text</font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9"><img src="img/colors/white.gif"></font></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a class="black_9" href="link2">Here is also Text</a></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a href="LINKtoWeb" class=list><u>STRING TO CAPTURE</u></a></td>
<td width="4%" bgcolor="#FFFFFF" align="center"><a target="_new" href="AnotherLink"><img src="img/img2.gif" border="0"></a></td>
</tr>
この種の構造は、さまざまなテキストを内部に何度も繰り返しましたが、「STRING TO CAPTURE」というテキストが最初にここに表示されるため、このセットのみを抽出したいと思います。では、Jsoup を使用して、このセットと、その間に表示されているテキスト、および URL のみを抽出するにはどうすればよいですか
AnotherLink
テキスト「STRING TO CAPTURE」の行に表示されますか?私はJsoupが初めてなので、これだけを試しました
Document doc = Jsoup.connect("http://www.website.com").get();
Element link = doc.select("a").first();
String relHref = link.attr("href");
String absHref = link.attr("abs:href");
String text = doc.body().text();
String linkHref = link.attr("href");
String linkText = link.text();
System.out.println("link:" + link);
System.out.println("text:" + text);
しかし、この目的のために事前にそれを行うことはできません。アドバイスをお願いします! ありがとうございました !