0

ページの一部を抽出しようとしています。パーサー HtmlCleaner を使用すると、すべてのタグが削除されます。すべての html タグを保存する設定はありますか? それとも、何か他のものを使用して、コードのこの部分を抽出するより良い方法でしょうか?

私のコード:

static final String XPATH_STATS = "//div[@class='text']/p/";

// config cleaner properties
HtmlCleaner htmlCleaner = new HtmlCleaner();
CleanerProperties props = htmlCleaner.getProperties();
props.setAllowHtmlInsideAttributes(false);
props.setAllowMultiWordAttributes(true);
props.setRecognizeUnicodeChars(true);
props.setOmitComments(true);
props.setTransSpecialEntitiesToNCR(true);


// create URL object
URL url = new URL(BLOG_URL);
// get HTML page root node
TagNode root = htmlCleaner.clean(url);


Object[] statsNode = root.evaluateXPath(XPATH_STATS);
for (Object tag : statsNode) {
    stats =  stats + tag.toString().trim();
}

return stats;

nikhil.thakkar に感謝します! 私はJSONでこれを行います。コードは誰かを助けるかもしれません:

    URL url2 = new URL(BLOG_URL);
    Document doc2 = Jsoup.parse(url2, 3000);
    Element masthead = doc2.select("div.main_text").first();
    String linkOuterH = masthead.outerHtml(); 
4

1 に答える 1

0

jSoup パーサーを使用できます。詳細はこちら: http://jsoup.org/

于 2013-05-19T21:59:12.597 に答える