0

次のように、 PHP Simple HTML DOM Parserを使用して、ページから URL のリストを抽出しています。

<?php
include('simple_html_dom.php');
$url = 'http://www.domain.com/';
$html = file_get_html($url);
foreach($html->find('table[width=370]') as $table)
    {
    foreach($table->find('a') as $item)
        echo $item->outertext . '<br><hr>';
    }
$html->clear();
?>

必要な情報を抽出する限り問題なく動作しますが、一部の a タグ (domain.com 上) は次のようにフォーマットされています。

<a href="http://www.domain.com"><font size="2">Anchor text</font></a>

一方、フォント サイズは、各 a タグを含む p タグで定義されます。つまり、a タグは次のように表示されます。

<a href="http://www.domain.com">Anchor text</a>

font タグを持っているタグから font タグを取り除く方法はありますか? それはおそらく非常に単純ですが、私はそれをやろうとして何年もの間「輪になって走り回っています」:(

アイデアや提案があればよろしくお願いします。

トム。

4

1 に答える 1

3

strip_tags()多分?

タグのみを許可する場合はa、次を使用します。

echo strip_tags($item->outertext, 'a');
于 2012-04-14T19:11:46.067 に答える