Jsoup を使用して html ファイルを解析し、要素からすべての表示テキストを取得しています。問題は、明らかに無視される javascript 変数にいくつかの html ビットがあることです。それらのビットを取り出すための最良の解決策は何でしょうか?
例:
<!DOCTYPE html>
<html>
<head>
<script>
var html = "<span>some text</span>";
</script>
</head>
<body>
<p>text</p>
</body>
</html>
この例では、Jsoup はp
タグからテキストを取得するだけであり、これが本来の目的です。var html
スパンからテキストを取得するにはどうすればよいですか? ソリューションは何千もの異なるページに適用する必要があるため、同じ名前を持つ javascript 変数のようなものに頼ることはできません。