特にタグ内のテキストを選択しようとすると、JSoup ライブラリで問題が発生します。出力は「HELLO WORLD」である必要があります
私は doc.select("div.sub").get(0); と思っていたでしょう。トリックを行いますが、何も返しません。私が無意識のうちに見逃した方法はありますか?
私のコード:
final String url = "http://www.my123url.com,";
Element myText;
Document doc;
try {
doc = Jsoup.parse(new URL(url).openStream(), "UTF-8",
url);
myText = doc.select("div.sub").get(0);
System.out.println("Text is: " + myText.text();
return myText.text();
} catch (Exception e) {
System.out.println("The exception caught is: " + e);
}
スクレイピングしようとしているコード:
<div id="content">
<div class="main-row" style="margin-bottom: 15px;">
<div class="sub" style="font-size: 18px; line-height: 27px;">
<cufon alt="HELLO" class="cufon cufon-canvas" style="width: 45px; height: 18px;">
<canvas height="28" style="width: 75px; height: 24px; top: -2px; left: -10px;" width="77"></canvas>
<cufontext>HELLO
</cufontext>
</cufon>
<cufon alt="WORLD " class="cufon cufon-canvas" style="width: 20px; height: 18px;">
<canvas height="28" style="width: 63px; height: 20px; top: -5px; left: -10px;" width="63"></canvas>
<cufontext>WORLD
</cufontext>
</cufon>
</div>
</div>
</div>
何か案は?
ありがとう!