次のように、 PHP Simple HTML DOM Parserを使用して、ページから URL のリストを抽出しています。
<?php
include('simple_html_dom.php');
$url = 'http://www.domain.com/';
$html = file_get_html($url);
foreach($html->find('table[width=370]') as $table)
{
foreach($table->find('a') as $item)
echo $item->outertext . '<br><hr>';
}
$html->clear();
?>
必要な情報を抽出する限り問題なく動作しますが、一部の a タグ (domain.com 上) は次のようにフォーマットされています。
<a href="http://www.domain.com"><font size="2">Anchor text</font></a>
一方、フォント サイズは、各 a タグを含む p タグで定義されます。つまり、a タグは次のように表示されます。
<a href="http://www.domain.com">Anchor text</a>
font タグを持っているタグから font タグを取り除く方法はありますか? それはおそらく非常に単純ですが、私はそれをやろうとして何年もの間「輪になって走り回っています」:(
アイデアや提案があればよろしくお願いします。
トム。