java - 文字列を解析し、異なるIDを持つHTML要素を収集する

Question

HTMLコンテンツを「Html_content」という文字列に渡しました。文字列「Html_content」を解析し、そこにあるIDを使用していくつかのDIVタグを選択する必要があります。たとえば、「fullHeader」はDIVのIDです。「fullHeader」のdivタグ内にあるコンテンツを選択し、文字列を保存する必要があります。

JSOUPを試しましたが、収集したdivタグをDocument内に保存する必要がありますが、文字列として保存する必要がありますが、Jsoupを使用することはできません。代替手段はありますか？

score 3 · Accepted Answer

しかし、文字列として保存する必要がありますが、Jsoupを使用することはできません

間違って、JsoupにはElement#text()このための方法があります。

String text = element.text(); // <div>foo<b>bar</b></div> will give "foobar"
// ...

または、文字列にもHTMLを含める場合は、要件に応じてElement.html()またはを使用します。Element#outerHtml()

String html = element.html(); // <div>foo<b>bar</b></div> will give "foo<b>bar</b>"
// ...

また

String html = element.outerHtml(); // <div>foo<b>bar</b></div> will give exact this string
// ...

score 3 · Accepted Answer

JSoupはまさにあなたが必要とするものです。私が理解したのは、HTML要素を文字列形式で返して、さらにそれらを使用して別のドキュメントを作成できるようにする必要があるということです。

HTMLから抽出されたeleなどのElementオブジェクトがあるとします。

書いて

String htmlForEle = new Element（Tag.valueOf（ "div"））。append（ele.clone（））。remove（）。html（）;

eleのhtmlはまさにあなたが探しているものです。

score 0 · Accepted Answer

HTMLからXML構文を強制する場合は、XPath、SAX、DOM、およびその他のXMLツールを使用してドキュメントを操作できます。

java - 文字列を解析し、異なるIDを持つHTML要素を収集する

3 に答える 3

Related

Reference