java - HTML Web サイトからデータを抽出する方法は?

Question

HTML ベースの Web サイトからテキストを抽出する必要があります。約 3000 の URL があり、それらの html から 1 行のテキストを抽出する必要があります。必要なデータは次のようになります。

 <html xmlns:og="http://opengraphprotocol.org/schema/">
<head>
<title>Pink Floyd Live Audio Feeds</title>// the line i need
...

このプロセスを自動化するにはどうすればよいですか? 私は Java が得意なので、その言語を使用した方法論が好まれます。ありがとう！

score 4 · Accepted Answer

実世界のHTMLを操作するための優れたJavaライブラリであるjsoupを使用できます。

score 3 · Accepted Answer

HTMLテキストを1行ずつ読むことができ、見つけたら</title>残りのページを読むのをやめます。これを行う方法は次のとおりです（コメントで指摘したのと同じHTMLコード行に<title>とがあると思います）</title>

public static String getTitle(String address) throws IOException {
    URL url = new URL(address);
    BufferedReader reader = null;
    try {
        reader = new BufferedReader(new InputStreamReader(url.openStream()));

        String line = null;
        while ((line = reader.readLine()) != null) {
            int start = line.indexOf("<title>");
            int end = line.indexOf("</title>");

            if (start != -1) {
                return line.substring(start + "<title>".length(), end);
            }
        }

        return "";
    } finally {
        if (reader != null)
            reader.close();
    }
}

score 0 · Accepted Answer

URLのリストを繰り返し処理し、を使用HttpURLConnectionしてページをダウンロードします。すべてのページでデータを処理したら、必要な情報を抽出します。これがHttpURLConnectionjavadocページです

java - HTML Web サイトからデータを抽出する方法は?

3 に答える 3

Related

Reference