0

これはhtmlコードです:

<!DOCTYPE html>
<html>
<title>Instructor's Page</title>

<body>

<h1>Instructor's Page</h1>


<div class="check1">    <div id="check2">
<span id="check3" class="check4"> <strong class="check5"><link href="http://schema.org/t"/>Instructor-1 name</strong>
</span>
</div>

<div class="check1">    <div id="check2">
<span id="check3" class="check4"> <strong class="check6">Instructor-2 name</strong>
</span>

</body>
</html>

私はに非常に新しいJsoupです。Instructor's name指定されたhtmlページから抽出する方法は?

現在、私はタイトルを印刷することしか知りません。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;


public class crawl {
    public static void main(String[] args) {
        Document doc1;

        try {


            File input = new File("t.html");
            doc1 = Jsoup.parse(input, "UTF-8");
        // get page title

            String title1 = doc1.title();
            System.out.println("title : " + title1);


        } catch (IOException e) {
            e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.
        }
    }
}
4

1 に答える 1

0

-method を使用して、select必要な HTML ページ内の要素を選択します。特定のIDまたはクラスを持つ特定のタグなど、選択するオブジェクトへの引数としてパターンを取ります。

//Creates a collection of Element objects for all span tags
Elements names = doc.select("span");

//Returns a collection of the first cells of each row
Elements names = doc.select("td:eq(0)");

これを使用して、探しているものを選択します。HTML ソース内のタグを識別するのに役立つ Web ブラウザーのツールを使用すると、役立つ場合があります。

インストラクターの名前を選択する方法に関する元の質問については、以下を参照してください。


HTML の構造が常に同じで、インストラクターの名前がタグ内にあることが確実な場合はspan

    Elements names = doc.select("span");
    for (Element e : names) {
        System.out.println("Name is: " + e.text());
    }

印刷します

Name is: Instructor-1 name
Name is: Instructor-2 name
于 2013-08-27T08:42:13.220 に答える