0
</div><div class="tr">
  </div><div class="bl">
  </div><div class="br">
  </div>  <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
          </div><div class="meta">
<h3 class="action">
<span>
    <a href="/abc">ABC</a>
  </span> a picture
</h3>        

次のように、WebサイトのHTMLソースコードをStringに保存します。

  public static BufferedReader read(String url) throws Exception
  {
    return new BufferedReader(
        new InputStreamReader(
            new URL(url).openStream()));
  }

このコードでは、すべての画像のURLを\nを連結した新しい文字列に保存します。\nは/medium/を内部に持つか、または\nを連結した文字列内のすべての画像リンクを簡単にします。プロセスはどうあるべきですか?前もって感謝します

4

1 に答える 1

1

HTMLコンテンツを自分で解析しようとするのではなく、JSoupを使用して画像タグを取得し、簡単String.containsに探している画像タグを取得することができます。

Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
    String imageSrc = e.attr("src");
    if (imageSrc.contains("/medium/")) {
     ...
    }
}

また、HTMLの解析に正規表現を使用することは避けてください

于 2012-12-28T22:40:55.120 に答える