Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
<p></p>そのため、java で受け入れる html タグを含むすべてのセクションを削除しようとしています。
<p></p>
私はこれを受け入れようとしましたが、私が持っている終了タグを正しく取得できません。(///p) 試してみたのですが、キャッチできないようです。
"<[^(p>)>]+>.*?<[^(///p>)>]+>"
例
<p> should stay </p> <html> shouldn't stay</html>
出力
<p> should stay </p>
正規表現を使用して HTML を操作することは、悪い、悪い、悪い考えです。正規表現を使用して HTML/XML を解析すると、Cthulu が呼び出されます。あなたの魂はクトゥルーに食べられます。Cthulu の別の名前は RegexHtmlParser です。
xpath を使用してすべての段落タグを抽出する方がよいでしょう。それ以外の場合は、DOM を歩き回り、段落タグを引き出すことができる HTML パーサーが唯一の現実的な選択肢です。