java - jSoup を使用して、どのタイプのタグにも囲まれていないテキストを抽出するにはどうすればよいですか?

Question

ここにこのHTMLコードがあります：

<hr />
<h3>Academic Recovery and Probation Conference Journal</h3>The Recovery Progress Journal is used to
record and guide conference discussions and to monitor students’ academic, behavioral and social
progress. 
<br />

ご覧のとおり、「h3」ヘッダーの下のテキストには、それを囲むタグがありませんか? jSoup を使用して、この情報を Android アプリに入れています。それを定義するタグがない場合、そのテキストの段落だけを抽出するにはどうすればよいですか?

score 0 · Accepted Answer

ここで回答しました（ありがたいことに）：

Jsoup - テキストの抽出

怠け者のための言い換えバージョン：

// You need to get Nodes, not Elements
Document doc = Jsoup.parse(str);
Element div = doc.select("div").first();

for (Node node : div.childNodes()) {
    System.out.println(
        String.format(
            "%s %s",
            node.getClass().getSimpleName(),
            node.toString()
        )
    );
}

score 0 · Accepted Answer

これは、他の解析を行わずに Jsoup だけを使用して行うことはできないと思います。Jsoup は DOM 内の要素を検索し、要素のデータにアクセスできるようにします。

必要な段落を囲む最小の要素を見つけ、それに対して .text() を実行し、.text() の結果を自分で解析する必要があります。

java - jSoup を使用して、どのタイプのタグにも囲まれていないテキストを抽出するにはどうすればよいですか?

2 に答える 2

Related

Reference