java - Web ページから特定のテキストを取得する方法

Question

stackoverflow と google でこの質問に対する回答を探しましたが、探していたものが実際に見つかりませんでした。

このコードを使用して、このようなページからデータを取得したい場合

public class ConsoleSearch {

    public static void main(String[] args) throws IOException {

        URL url = new URL("http://www.stackoverflow.com");
        URLConnection cnt = url.openConnection();
        BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
        String content;

        while((content = br.readLine()) != null){   
            System.out.println(content);
        }
        br.close();
    }

}

私は明らかに HTML タグとそれに付随するすべてのものを取得します。難しい部分を使用して HTML を簡単にフィルター処理できHtmlCleaner ます。取得したすべてのデータから特定のテキストを取得したい場合は、自分が立ち往生していることに気づきます。

たとえば、"Nova Scotia" や "Europe" というテキストだけを取得したい場合、どうすればよいでしょうか?

score 2 · Accepted Answer

Pattern p = Pattern.compile("Nova Scotia"); 
    Matcher m = p.matcher(content);
    boolean b = m.matches();

上記の正規表現パッケージを調べるだけで、役に立ちます。

java - Web ページから特定のテキストを取得する方法

1 に答える 1

Related

Reference