java - jsoupを使用してHTMLから2つのテーブルを解析する方法は？

Question

サイトhttp://www.informatik.uni-trier.de/~ley/pers/hd/k/Kumar:G=_Praveen.htmlのjsoupライブラリを使用してHTMLの2つのテーブルを解析する必要があります。ページ上の2つのテーブル、テーブルの内容をどのように解析するかがわかりません。最初のテーブルの内容を抽出する必要があります。つまり、著者名とその出版物、および最後に共著者という名前の2番目のテーブルだけです。コーディングしようとしましたが（以下のコード）、エラーが発生します…</ p>

public class Main {
    public static void main(String[] args) {
        try {
            Document doc =Jsoup.connect(“http://www.informatik.unitrier.de/~ley/pers/hd/k/Kumar:G=_Praveen.html“).get();
            Elements trs = doc.select(“table tr”);
            Element table = doc.select(“table[class=coauthor]“).first();
            Iterator ite = table.select(“td”).iterator();
            ite.next();
            System.out.println(“Value 1: ” + ite.next().text());
            System.out.println(“Value 2: ” + ite.next().text());
            System.out.println(“Value 3: ” + ite.next().text());
            System.out.println(“Value 4: ” + ite.next().text());
            trs.remove(0);
            for (Element tr : trs) {
                Elements tds = tr.getElementsByTag(“td”);
                Element td = tds.first();
                System.out.println(“Blog: ” + td.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

上記のコードで何を変更する必要があるかを正確に提案してください。そうすれば、必要なテーブルから正確な情報を取得できます。助けていただければ幸いです。よろしくお願いします。

score 2 · Accepted Answer

著者とderの出版物：

final String url = "http://www.informatik.uni-trier.de/~ley/pers/hd/k/Kumar:G=_Praveen.html";
Document doc = Jsoup.connect(url).get();


for( Element element : doc.select("table div.data") )
{
    // System.out.println(element); // Use this line if you need the HTML Element instead of the text
    System.out.println(element.text());
}

出力：

G. Praveen Kumar, Anirban Sarkar: Weighted Association Rule Mining and Clustering in Non-binary Search Space. ITNG 2010: 238-243
G. Praveen Kumar, Arjun Kumar Murmu, Biswas Parajuli, Prasenjit Choudhury: MULET: A Multilanguage Encryption Technique. ITNG 2010: 779-782
G. Praveen Kumar, Anirban Sarkar, Narayan C. Debnath: A New Algorithm for Frequent Itemset Generation in Non-Binary Search Space. ITNG 2009: 149-153

共著者：

for( Element element : doc.select("table td.coauthor") )
{
    System.out.println(element.text());
}

出力：

Prasenjit Choudhury
Narayan C. Debnath
Arjun Kumar Murmu
Biswas Parajuli
Anirban Sarkar

java - jsoupを使用してHTMLから2つのテーブルを解析する方法は？

1 に答える 1

著者とderの出版物：

共著者：

Related

Reference