php - 削除する

DOMxpathまたは正規表現で？

Question

DOMxpath を使用して、テキストノードが空の HTML タグを削除しますが、 タグは保持します。

$xpath = new DOMXPath($dom);

while(($nodeList = $xpath->query('//*[not(text()) and not(node()) and not(self::br)]')) && $nodeList->length > 0) 
{
    foreach ($nodeList as $node) 
    {
        $node->parentNode->removeChild($node);
    }
}

別の問題に遭遇するまでは完全に機能しますが、

$content = '<p><br/><br/><br/><br/></p>';

この種の厄介な問題をどのように削除し ますか?  つまり、単独では許可したくありませんが、このような適切なテキストのみを許可します。 

$content = '<p>first break <br/> second break <br/> the last line</p>';

それは可能ですか？

それとも正規表現の方がいいですか？

私はこのようなものを試しました、

$nodeList = $xpath->query("//p[text()=<br\s*\/?>\s*]");
    foreach($nodeList as $node) 
    {
        $node->parentNode->removeChild($node);
    }

しかし、それはこのエラーを返します、

Warning: DOMXPath::query() [domxpath.query]: Invalid expression in...

score 3 · Accepted Answer

XPath を使用して不要な p を選択できます。

"//p[count(*)=count(br) and br and normalize-space(.)='']"

空のテキストノードを選択する場合は、(?) を使用する方がよいのではないことに注意してください。

"//*[normalize-space(.)='' and not(self::br)]"

これにより、次のようなテキストノードを除く任意の要素 (ただし br) が選択されます。

<p><b/><i/></p>

また

<p> <br/>   <br/>
</p>

含まれています。

score 1 · Accepted Answer

 段落内にスペースとタグだけがあることを確認するだけで、それらをすべて取り除くことができます。preg_replace("\<p\>(\s|\<br\s*\/\>)*\<\/p\>","",$content);

内訳：

\<p\>    # Match for <p>
(        # Beginning of a group
  \s       # Match a space character
  |        # or...
  \<br\s*\/\> # match a <br /> tag, with any number (including 0) spaces between the <br and />
)*       # Match this whole group (spaces or <br /> tags) 0 or more times.
\<\/p\>  # Match for </p>

ただし、HTML が適切にフォーマットされていない限り (1 行、奇妙なスペースや段落クラスがないなど)、これを解析するために正規表現を使用しないでください。そうであれば、この正規表現は問題なく動作するはずです。

php - 削除するDOMxpathまたは正規表現で？

3 に答える 3

Related

Reference

php - 削除する

DOMxpathまたは正規表現で？