php - 正規表現を使用して、特定の属性を持つ HTML のタグのコンテンツを取得するにはどうすればよいですか?

Question

a次のように、タグ間のすべてのコンテンツをclass bc-de fgHTML ファイルで取得したいと考えていました。

<a class="bc-de fg"> XXXXXXXXXXXXX </a>

そこで、次の正規表現を書きました。

$regexp = “&lt;a\wclass="bc\wde">(.*?)<\/a>”

これはうまくいきません。正規表現は初めてなので、もっと練習しようとしています。

この正規表現を修正するにはどうすればよいですか?

score 0 · Accepted Answer

これを試して：

$str  = '<a class="bc-de fg">Testing</a>';

preg_match('/<a class="bc\-de\s*fg">(?P<link>.*)<\/a>/',$str,$matches);

echo "<pre>";
print_r($matches);

リンクを取得します$link = $matches['link'];

これにより、より正確な結果が得られます。

preg_match('/<a.*class="bc\-de\s*fg".*>\s*(?P<link>.*)\s*<\/a>/',$str,$matches);

score 0 · Accepted Answer

これを試して：

$regexp = '/<a class="bc-de fg">(.*)<\/a>/';
preg_match_all($regexp, $subject, $matches);

あなたの答えはになります$matches。これは、今述べたシナリオで機能するはずです。ただし、その場合、属性の順序が変更されたり、より多くのクラスが割り当てられたりすると、この正規表現は機能しません。これを行う最良の方法は、正規表現を使用する代わりにDOMを使用することです。

score 0 · Accepted Answer

0

not演算子[^(<a\W*class="bc\-de fg"\W*>)+(</a>)+]を使用できます。^

于 2013-03-07T07:32:11.683 に答える

score 0 · Accepted Answer

次のようなものを試してください$regex = ":<a class="bc-de fg">(.*?)</a>:mi";

これは、役に立つと思われる簡単なチートシートです。

score 0 · Accepted Answer

regexhtml やネストされた構造を超えることは悪い習慣と見なされます。DOM代わりに使用してください。

正規表現の問題はエスケープ文字です（正規表現文字列を一重引用符で囲みます）。#...#また、正規表現の開始文字と終了文字 (または)もありません\...\。

5 に答える 5