0

これは、Jsoupまたはおそらく他のHTMLパーサーに効果的に実行するネイティブメソッドがあるかどうかを知りたい抽出ケースです。「StackOverFlow」と適切な文を形成する近くのテキストを抽出したい次のページがあるとします。

<html> <head><title>A test page </title></head> 
<body> 
<p> Not relevant 1. </p>
<p> Not relevant 2. 
<em> word1 word2 word3 <b> StackOverFlow </b> word4 word5 word6 </em>
</p>
</body>  
</html>

抽出する必要のあるテキストは次のとおりです。word1word2word3StackOverFlow word4word5word6。これではありません:関係ありません2. word1 word2 word3 StackOverFlow word4 word5 word6

つまり、Jsoupで文の境界を識別する方法はありますか?いくつかの正規表現を考えることもできますが、もっと良い解決策があるのではないかと思います。

4

2 に答える 2

0

最良の方法は、CSS JQuery alike セレクターを使用することです。「コンビネーター」についてもお読みください。そのため、要素が子である必要がある要素から制御します。

http://jsoup.org/apidocs/org/jsoup/select/Selector.html

于 2012-07-20T02:23:41.203 に答える
0

これを試して:

doc.select("em").text();
于 2012-07-19T14:07:28.890 に答える