解析しようとしている次の HTML コードがあります。
ボックス内の p タグのみを選択する方法を教えてください。または、赤い線より下のタグを削除する方法を教えてもらえますか? また、不要な p タグがたくさんあります
div class="SPOSTARBUST-Related-Posts"
しかし
document.select("div.SPOSTARBUST-Related-Posts").remove();
何もしないようです
赤いボックス内のタグだけを選択したい場合<p>
、見つけることができる唯一の基準はstyle="text-align: justify"
.
JSoupセレクター構文を使用すると、次のように実行できます
Elements paragraphs = doc.select("p[style*=justify]");
次のセレクターを使用する必要があります
div[id=content] > p
このような
final String html = "<head><body/><div id=\"content\"><p>a</p><p>b</p><div><p>v</p></div></div></html>";
final Document doc = Jsoup.parse(html);
final Elements ps = doc.select("div[id=content] > p");
System.out.println(ps.size());
これにより、 の直接 p
の子がすべて返されますdiv[id="content"]
。