java - htmlsource から div コンテンツを文字列で抽出する (Java)

Question

HTMLソースを含む文字列から特別なdivタグ(クラス名で定義)のコンテンツを抽出しようとしています。Java の正規表現機能は perl ほど使いにくいと思いますよね?

以前にこれを行った人はいますか?コードを教えてもらえますか? おそらくdom-browsingは良い解決策ですが、私の問題に一致するチュートリアルは見つかりませんでした。

score 1 · Accepted Answer

このリストにある HTML パーサーまたはその他の HTML 解析ライブラリを使用できます。

score 0 · Accepted Answer

あなたのコメントに基づいて、一般的なケース (「クローラー」) があるように聞こえるため、XML ファイルを効果的に解析しています。ソースページが xhtml の場合、さまざまな XML ライブラリにさまざまなオプションがあります。(たとえば、JDom)。

2 に答える 2