java - jsoupタグ抽出問題

Question

テスト: 例
test1:example1

 Elements size = doc.select("div:contains(test:)");

このhtmlタグから値exampleとexample1を抽出するにはどうすればよいですか....jsoupを使用して..

score 3 · Accepted Answer

この HTML は最終的な目的に対して十分なセマンティックではないため (a<br>は子を持つことが:できず、HTML ではありません)、Jsoup のような HTML パーサーでは多くのことを行うことができません。HTML パーサーは、特定のテキストの抽出/トークン化の仕事をすることを意図していません。

あなたができる最善のことは、Jsoupを使用してHTMLコンテンツを取得し、通常の方法またはおそらく方法<div>を使用してそれをさらに抽出することです。java.lang.Stringjava.util.Scanner

キックオフの例を次に示します。

String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();

String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
    int colon = part.indexOf(':');
    if (colon > -1) {
        System.out.println(part.substring(colon + 1).trim());
    }
}

これにより、

例
例1

もし私が HTML の作成者だったら、これに定義リストを使用したでしょう。例えば

<dl id="mydl">
     <dt>test:</dt><dd>example</dd>
     <dt>test1:</dt><dd>example1</dd>
</dl>

これはよりセマンティックであるため、より簡単に解析できます。

String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
    System.out.println(dt.text());
}

java - jsoupタグ抽出問題

1 に答える 1

Related

Reference