java - 正規表現を使用してプラグインなしでhtmlタグを削除する

Question

<p></p>そのため、java で受け入れる html タグを含むすべてのセクションを削除しようとしています。

私はこれを受け入れようとしましたが、私が持っている終了タグを正しく取得できません。(///p) 試してみたのですが、キャッチできないようです。

"<[^(p>)>]+>.*?<[^(///p>)>]+>"

例

<p> should stay </p> <html> shouldn't stay</html>

出力

<p> should stay </p>

score 3 · Accepted Answer

正規表現を使用して HTML を操作することは、悪い、悪い、悪い考えです。正規表現を使用して HTML/XML を解析すると、Cthulu が呼び出されます。あなたの魂はクトゥルーに食べられます。Cthulu の別の名前は RegexHtmlParser です。

xpath を使用してすべての段落タグを抽出する方がよいでしょう。それ以外の場合は、DOM を歩き回り、段落タグを引き出すことができる HTML パーサーが唯一の現実的な選択肢です。

1 に答える 1