java - Jsoup初心者によるWebサイトスクレイピング

Question

jsoup を使用して Web サイトをスクレイピングしようとしています。ソース HTML でクラス ".eventTableRow" を使用して表の行を Elements オブジェクトに抽出しましたが、個々のセルにアクセスする方法がわかりません。下の画像のボックスで強調表示されているように、セル内のデータを取得しようとしています:

Elements row = doc.select(.eventTableRow);
System.out.println(row);
//prints similar to below image :

http://postimg.org/image/blc5ob74b/38f0a081/

評判が10ないので画像をアップロードできませんでした

多くの人にとって、これは初歩的なことであり、jsoup のドキュメントへのリンクを確実に取得できることは理解していますが、数時間読んで試してみましたが、うまくいきません。

たとえば、私は試しました：

Elements result = race.select("[attr^=712]"); 
//im attempting to find all atributes beginning 712 but it doesn't work

Elements result = race.select(".o bgc co"); 
//im attempting to find the cells with this class

および他の多くの場合、ドキュメントの指示を実装する方法がよくわかりません。理解するのが難しく、基本的なチュートリアルが見つかりません。

他の分野について学ぶことは、jsoup のドキュメントをよりよく理解するのに役立ちます。おそらく、XML、DOM、HTML の解析など、これらは私がグーグルで検索しているものです。

どんな助けでも感謝します。

psスクレイピングまたはJavaを使用した一般的なスクレイピングにjsoupを使用するためのばかガイドを誰かが作成した場合、それは非常に人気があると確信しています。

score 0 · Accepted Answer

クイックスケッチ:

    for(Element f : e.select("[id^=code_]")) {
        System.out.println("printed out links: " + f.select("*").text());
    }

基本的な考え方は、「code_」で始まる ID を持つ各要素に対して、その要素内のすべてを選択して出力することです。

java - Jsoup初心者によるWebサイトスクレイピング

2 に答える 2

Related

Reference