0

GET を実行した後にページ内のすべてのリンクを取得したいのですが、私のコードは一部の Web サイトでは機能しますが、他の Web サイトでは機能しません。

  Pattern linkPattern = Pattern.compile("<a[^>]+href=[\"']?([\"'>]+)[\"']?[^>]*>(.+?)",               
    Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher pageMatcher = linkPattern.matcher(Content);

    if (FindKeyword(Content)) {
        LinksWithKey.add(HostName);
    }
        count++;

    while (pageMatcher.find()) {
4

1 に答える 1

0

コメントで述べたように、そのようなタスクにはJSoupの使用を検討する必要があります。

Document doc = Jsoup.parse(Content); // this is your original HTML content
for (Element link : doc.select("a[href]")) {
    System.out.println(link.attr("href"));
}
于 2013-03-08T06:44:52.927 に答える