Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
HTMLソースを含む文字列から特別なdivタグ(クラス名で定義)のコンテンツを抽出しようとしています。Java の正規表現機能は perl ほど使いにくいと思いますよね?
以前にこれを行った人はいますか?コードを教えてもらえますか? おそらくdom-browsingは良い解決策ですが、私の問題に一致するチュートリアルは見つかりませんでした。
このリストにあるHTML パーサーまたはその他の HTML 解析ライブラリを使用できます。
あなたのコメントに基づいて、一般的なケース (「クローラー」) があるように聞こえるため、XML ファイルを効果的に解析しています。ソース ページが xhtml の場合、さまざまな XML ライブラリにさまざまなオプションがあります。(たとえば、JDom)。