php - 繰り返しタグ間のテキストを取得

Question

この問題を解決しようとして頭が痛くなりました。私はこのような構造を持っています:

<tr>
<td width="10%" bgcolor="#FFFFFF"><font class="bodytext9">17-Aug-2013</font></td>
<td width="4%" bgcolor="#FFFFFF" align=center><font class="bodytext9">Sat</font></td>
<td width="4%" bgcolor="#FFFFFF" align="center"><font class="bodytext9">5 PM</font></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a class="black_9" href="teams.asp?teamno=766&leagueNo=115">XYZ Club FC</a></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9"><img src="img/colors/white.gif"></font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9">vs</font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9"><img src="img/colors/orange.gif"></font></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a class="black_9" href="teams.asp?teamno=632&leagueNo=115">ABC Football Club</a></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a href="pitches.asp?id=151" class=list><u>APSM Pitch </u></a></td>
<td width="4%" bgcolor="#FFFFFF" align="center"><a target="_new" href="matchpreview_frame.asp?matchno=20877"><img src="img/matchpreview_symbol.gif" border="0"></a></td>
</tr>

この形式は、さまざまなテキストが含まれている場合に何度も繰り返されます。場合によっては、いくつかのテキストが含まれています。この形式の最初のグループのみを抽出する必要があります。このグループには、最初に「ABC Football Club」が含まれています (後で何度も表示される可能性があるため)。どうすればそれを行い、各行のテキストを抽出できますか?

コメントありがとうございます。ここで編集して、試したコードをいくつか追加しました。

    $ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'url link');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
curl_close($ch);
$dom = new DOMDocument();
@$dom->loadHTML($html);                            

$xpath = new DOMXPath($dom);
$trs = $xpath->query('//tr/td[contains(.,'ABC Football Club')]');
$rows = array();
foreach($trs as $tr)
   $rows[] = innerHTML($tr, true); // this function I don't include here
print_r($rows);

ただし、これは機能しません。:(

score 2 · Accepted Answer

$needle を含む最初の TR を見つける

$needle = "ABC Football Club";

$doc = new DOMDocument();
$doc->loadHTML($html);
$trs = $doc->getElementsByTagName('tr');
foreach($trs as $current_tr)
{
   $tr_content = $doc->saveXML($current_tr);
   if(strpos($tr_content, $needle) !== FALSE)
   {
      break;
   }
   else
   {
      $tr_content= "";
   }
}

echo $tr_content;

$needle を含む最初の TR を見つけ、必要に応じて TR を針に近づけます。プロセスを繰り返すだけで解決できます。

$needle = "ABC Football Club";

$doc = new DOMDocument();
$doc->loadHTML($html);
$node = $doc;
do
{
    $trs = $node->getElementsByTagName('tr');
    $node = NULL;
    foreach($trs as $current_tr)
    {
       $tr_content = $doc->saveXML($current_tr);
       if(strpos($tr_content, $needle) !== FALSE)
       {
          $node = $current_tr;
          $found_tr = $node;
          $found_tr_content = $tr_content;
          break;
       }
    }
} while($node);
echo $found_tr_content;

score 1 · Accepted Answer

phpquery では、次のようにします。

$dom = phpQuery::newDocument($html);
$dom->find('tr:has(> td:contains("ABC Football Club"))')->eq(0);

score 0 · Accepted Answer

最初の TR の TD:s を取得するには、次を使用できます。

$doc = new DOMDocument();
$doc->loadHTML($html);
$trs = $doc->getElementsByTagName('tr');
$td_of_the_first_tr = $trs->item(0)->getElementsByTagName('td');

foreach($td_of_the_first_tr as $current_td)
{
   echo $doc->saveXML($current_td) . PHP_EOL;
}

php - 繰り返しタグ間のテキストを取得

3 に答える 3

Related

Reference