http:\\abc.com?=blahblahiframelink
サードパーティのレスト サービスからIframe リンクを取得しています。その Iframe のコンテンツから複数の値を抽出したい。
ここに単純化されたhtmlがあります。実際の html は、ネストされた div とテーブルが複数あるため、はるかに複雑であることを理解してください。
.css stuff
<html>
<div>
<p> NEED THIS INFO </p>
....
blah blah
<img src="NEED THIS INFO" > </img>
</div>
</html>
"NEED THIS INFO"
上記のコードで、要素値だけでなく属性値も必要であることを示すために、抽出したいものとしてマークを付けました。
最初にその Iframe コンテンツを残りのサービスの Java 文字列に保存してから、クレイジーな正規表現を使用して必要な情報を取得することを考えています。
それを試みる前に、これを行うためのより効率的な方法があるかどうかを確認したいと思います。構造化された形式でコンテンツを取得するために使用できる HTML パーサーはありますか。
そうでない場合は、iframe を Java 文字列に格納する方法を教えてください。
さらに情報が必要な場合はお知らせください。