1

私はしばらくの間取り組んできたプロジェクトに取り組んでおり、ウェブサイトからいくつかのデータを引き出すのに苦労しています。ウェブサイトには、未知のソースからいくつかのデータを取り込むiframeがあります。データは、次のようなタグのiframeにあります。

<DIV id="number_forecast"><LABEL id="lblDay">9,000</LABEL></DIV>

その上には他にもたくさんのがらくたがありますが、このdiv id / labelは完全に一意であり、コード内の他の場所では使用されていません。

4

2 に答える 2

2

jsoupはおそらくあなたが望むものであり、HTMLドキュメントからデータを抽出するのに優れています。

APIの使用方法を示す利用可能な多くの例があります:http://jsoup.org/cookbook/extracting-data/selector-syntax

プロセスは2つのステップになります。

  • ページを解析し、iframeのURLを見つけます
  • iframeのコンテンツを解析し、必要な情報を抽出します

コードは次のようになります。

 // let's find the iframe
 Document document = Jsoup.parse(inputstream, "iso-8859-1", url);
 Elements elements = document.select("iframe");
 Element iframe = elements.first();

 // now load the iframe
 URL iframeUrl = new URL(iframe.absUrl("src"));
 document = Jsoup.parse(iframeUrl, 15000);

 // extract the div
 Element div = document.getElementById("number_forecast");
于 2012-05-30T14:08:34.263 に答える
0

iframe を含むページで、youe iframe のソースを独自の URL に変更します。この URL は ouw コントローラーで処理され、コンテンツを読み取り、解析し、必要なものをすべて抽出し、応答に書き込みます。iframe に絶対参照がある場合、これは機能するはずです。

于 2012-05-30T14:13:57.840 に答える