php - リンクの有無にかかわらずセルのコンテンツを取得する正規表現

Question

次のような HTML ファイルのコンテンツを返します。

<irrelevant things> 
   <tr id="myid"> 
      <td>Content</td> 
   </tr> 
<irrelevant things again>

また：

<irrelevant things> 
   <tr id="myid"> 
      <td><a href="somewhere.com">Content</a></td> 
   </tr> 
<irrelevant things again>

正規表現を 1 つだけ使用して、両方のケースで「コンテンツ」のみを取得することは可能ですか?

私はこれを試しましたが、結果はありません:

preg_match('/<tr id="myid"><td>(<a href="[^\"]*">)?([^<]*)/', $html, $mycontent);

ありがとう

score 4 · Accepted Answer

正規表現はこれに最適な方法ではありません。id ("myid")があるため、で簡単に実行できますDOMDocument。例：

$doc = new DOMDocument();
@$doc->loadHTML($yourstring);

$node = $doc->getElementById('myid');

echo trim($node->textContent);

score 1 · Accepted Answer

正規表現でそれを行う方法は次のとおりです。

<td>(?:<a.*?>)?([^<]+)

ただし、 PHP Simple HTML DOM Parserのような DOM パーサーを使用する方が簡単です。

2 に答える 2