これは、Jsoupまたはおそらく他のHTMLパーサーに効果的に実行するネイティブメソッドがあるかどうかを知りたい抽出ケースです。「StackOverFlow」と適切な文を形成する近くのテキストを抽出したい次のページがあるとします。
<html> <head><title>A test page </title></head>
<body>
<p> Not relevant 1. </p>
<p> Not relevant 2.
<em> word1 word2 word3 <b> StackOverFlow </b> word4 word5 word6 </em>
</p>
</body>
</html>
抽出する必要のあるテキストは次のとおりです。word1word2word3StackOverFlow word4word5word6。これではありません:関係ありません2. word1 word2 word3 StackOverFlow word4 word5 word6
つまり、Jsoupで文の境界を識別する方法はありますか?いくつかの正規表現を考えることもできますが、もっと良い解決策があるのではないかと思います。