jsoup - Jsoupを使用してhtmlから段落のテキストを抽出するには?

Question

import java.io.IOException;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JavaApplication14 {


public static void main(String[] args)  {
    try {
        Document doc = Jsoup.connect("tanmoy_mahathir.makes.org/thimble/146").get();  
         String html= "<html><head></head>" + "<body><p>Parsed HTML into a doc."
                 + "</p></body></html>"; 
  Elements paragraphs = doc.select("p");
  for(Element p : paragraphs)
    System.out.println(p.text());
    } catch (IOException ex) {
        Logger.getLogger(JavaApplication14.class.getName()).log(Level.SEVERE, null, ex);
    }
}

}

誰かがjsoupコードで私を助けることができますか?段落を含む部分だけを解析して、印刷するだけです

Hello ,World!
Nothing is impossible

score 5 · Accepted Answer

この小さな html については、次のことを行う必要があります。

String html= "<html><head></head>" + "<body><p>Parsed HTML into a doc."+
                    +"</p></body></html>"; 
Document doc = Jsoup.parse(html); 
Elements paragraphs = doc.select("p");
for(Element p : paragraphs)
  System.out.println(p.text());

あなたのリンクにはほとんど同じhtmlが含まれていることがわかりますので、定義を次のように置き換えることもできdocます

Document doc = Jsoup.connect("https://tanmoy_mahathir.makes.org/thimble/146").get();

アップデート

これは、コンパイルして正常に実行される完全なコードです。

import java.io.IOException;
import java.util.logging.*;
import org.jsoup.*;
import org.jsoup.nodes.*;
import org.jsoup.select.*;

public class JavaApplication14 {

  public static void main(String[] args)  {
    try {
      String url = "https://tanmoy_mahathir.makes.org/thimble/146";
      Document doc = Jsoup.connect(url).get();
      Elements paragraphs = doc.select("p");
      for(Element p : paragraphs)
        System.out.println(p.text());
    } 
    catch (IOException ex) {
      Logger.getLogger(JavaApplication14.class.getName())
            .log(Level.SEVERE, null, ex);
    }
  }
}

score 0 · Accepted Answer

あなたはこれを試すことから始めることができます....

String url = "url of the html page";
Document page = Jsoup.parse(url);

Elements elements = page.select("div[class=class_name] p");

score 0 · Accepted Answer

要素 firstPara = d.select("div.post-content p").first() ;2
System.out.println(firstPara);

そのクラスでタグを選択してから、最初の段落を取得するなど、より具体的にすることができます

jsoup - Jsoupを使用してhtmlから段落のテキストを抽出するには?

3 に答える 3

Related

Reference