java - JSoup コア Web テキスト抽出

Question

私は JSoup を初めて使用します。私の質問が些細なことでしたら申し訳ありません。http://www.nytimes.com/から記事のテキストを抽出しようとしていますが、解析ドキュメントを印刷すると、解析された出力に記事が表示されません

public class App 
{

    public static void main( String[] args )
    {
        String url = "http://www.nytimes.com/";
        Document document;
        try {
            document = Jsoup.connect(url).get();

            System.out.println(document.html()); // Articles not getting printed
            //System.out.println(document.toString()); // Same here
            String title = document.title();
            System.out.println("title : " + title); // Title is fine

    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

}

OK、「http://en.wikipedia.org/wiki/Big_data」を解析してウィキデータを取得しようとしましたが、ここでも同じ問題が発生し、ウィキデータが出力されません。どんな助けやヒントも大歓迎です。

ありがとう。

score 0 · Accepted Answer

すべての<p class="summary>テキストを取得する方法は次のとおりです。

final String url = "http://www.nytimes.com/";
Document doc = Jsoup.connect(url).get();

for( Element element : doc.select("p.summary") )
{
    if( element.hasText() ) // Skip those tags without text
    {
        System.out.println(element.text());
    }
}

フィルタリングなしですべての タグが必要な場合は、代わりに使用できます。ただし、ほとんどの場合、必要なものだけを選択することをお勧めします ( Jsoup セレクターのドキュメントについては、こちらを参照してください)。<p>doc.select("p")

java - JSoup コア Web テキスト抽出

1 に答える 1

Related

Reference