2

HTMLソースを含む文字列から特別なdivタグ(クラス名で定義)のコンテンツを抽出しようとしています。Java の正規表現機能は perl ほど使いにくいと思いますよね?

以前にこれを行った人はいますか?コードを教えてもらえますか? おそらくdom-browsingは良い解決策ですが、私の問題に一致するチュートリアルは見つかりませんでした。

4

2 に答える 2

1

このリストにあるHTML パーサーまたはその他の HTML 解析ライブラリを使用できます。

于 2009-05-09T19:40:19.340 に答える
0

あなたのコメントに基づいて、一般的なケース (「クローラー」) があるように聞こえるため、XML ファイルを効果的に解析しています。ソース ページが xhtml の場合、さまざまな XML ライブラリにさまざまなオプションがあります。(たとえば、JDom)。

于 2009-05-07T23:10:51.747 に答える