3

HTMLコンテンツを「Html_content」という文字列に渡しました。文字列「Html_content」を解析し、そこにあるIDを使用していくつかのDIVタグを選択する必要があります。たとえば、「fullHeader」はDIVのIDです。「fullHeader」のdivタグ内にあるコンテンツを選択し、文字列を保存する必要があります。

JSOUPを試しましたが、収集したdivタグをDocument内に保存する必要がありますが、文字列として保存する必要がありますが、Jsoupを使用することはできません。代替手段はありますか?

4

3 に答える 3

3

しかし、文字列として保存する必要がありますが、Jsoupを使用することはできません

間違って、JsoupにはElement#text()このための方法があります。

String text = element.text(); // <div>foo<b>bar</b></div> will give "foobar"
// ...

または、文字列にもHTMLを含める場合は、要件に応じてElement.html()またはを使用します。Element#outerHtml()

String html = element.html(); // <div>foo<b>bar</b></div> will give "foo<b>bar</b>"
// ...

また

String html = element.outerHtml(); // <div>foo<b>bar</b></div> will give exact this string
// ...
于 2011-05-10T13:38:39.243 に答える
3

JSoupはまさにあなたが必要とするものです。私が理解したのは、HTML要素を文字列形式で返して、さらにそれらを使用して別のドキュメントを作成できるようにする必要があるということです。

HTMLから抽出されたeleなどのElementオブジェクトがあるとします。

書いて

String htmlForEle = new Element(Tag.valueOf( "div"))。append(ele.clone())。remove()。html();

eleのhtmlはまさにあなたが探しているものです。

于 2011-05-10T13:44:34.413 に答える
0

HTMLからXML構文を強制する場合は、XPath、SAX、DOM、およびその他のXMLツールを使用してドキュメントを操作できます。

于 2011-05-10T13:22:43.593 に答える