stackoverflow と google でこの質問に対する回答を探しましたが、探していたものが実際に見つかりませんでした。
このコードを使用して、このようなページからデータを取得したい場合
public class ConsoleSearch {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.stackoverflow.com");
URLConnection cnt = url.openConnection();
BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
String content;
while((content = br.readLine()) != null){
System.out.println(content);
}
br.close();
}
}
私は明らかに HTML タグとそれに付随するすべてのものを取得します。難しい部分を使用して HTML を簡単にフィルター処理できHtmlCleaner
ます。取得したすべてのデータから特定のテキストを取得したい場合は、自分が立ち往生していることに気づきます。
たとえば、"Nova Scotia" や "Europe" というテキストだけを取得したい場合、どうすればよいでしょうか?