php - 正規表現を使用したhtmlタグのコンテンツの解析

Question

からコンテンツを解析したい

<td>content</td>
and
<td *?*>content</td>
and 
<td *specific td class*>content</td>

正規表現、PHP、およびpregを一致させるにはどうすればよいですか？

score 4 · Accepted Answer

これはかなり良い要約だと思います。

つまり、HTMLの解析に正規表現を使用しないでください。代わりに、DOMクラス、特にDOMDocument::loadHTMLを見てください。

score 3 · Accepted Answer

HTMLドキュメントがある場合は、正規表現を使用して解析するべきではありません。HTMLは、そのための「正規表現」ではありません。

はるかに優れた解決策は、たとえばDOMパーサーを使用してHTMLドキュメントをロードすることです。たとえば、DOMDocument::loadHTMLXpathクエリは非常に優れた仕事をすることがよくあります。

score 0 · Accepted Answer

<td>content</td>：<td>([^<]*)</td>

<td *specific td class*>content</td>：<td[^>]*class=\"specific_class\"[^>]*>([^<]*)<

score 0 · Accepted Answer

@OP、ここに1つの方法があります

$str = <<<A
<td>content</td>
<td *?*>content</td>
<td *specific td class*>content</td>
<td *?*> multiline
content </td>
A;

$s = explode("</td>",$str);
foreach ($s as $a=>$b){
    $b=preg_replace("/.*<td.*>/","",$b);
    print $b."\n";
}

出力

$ php test.php
content

content

content

 multiline
content

php - 正規表現を使用したhtmlタグのコンテンツの解析

4 に答える 4

Related

Reference