java - 文字列の形式で見つかったHTMLダンプを解析する効率的な方法

Question

この些細な質問に対処してください。それはstackoverflowで少しずつ利用できます。

文字列の形式でWebサイトのHTMLダンプがあります。その特定のタグからテキストを抽出したい。

他の方法で、私は模倣したい

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

JsoupをWebサイトに接続したくないので、使用していません（htmlダンプをテキスト形式で返す別のサービスがあります）。テキストをHTMLDocumentに変換するためのHTMLEditorKitを見つけましたが、（JsoupやHTMLParserのように）非常に使いやすいように見えないか、取得できません。

どんな助けでも役に立ちます。

ありがとう。

score 2 · Accepted Answer

Jsoupを使用したことがあり、それがまだ機能している場合は、引き続き使用する必要があります。

Document doc = Jsoup.parse("<html>...");

する必要があります。

参照：API

java - 文字列の形式で見つかったHTMLダンプを解析する効率的な方法

1 に答える 1

Related

Reference