シンプルな html dom を使用してニュース Web サイトをスクレイピングしています。reative URls を絶対に修正するための長い検索の後、最終的に次のように正しくすることができました。
$url = 'http://www.nu.nl';
$html = file_get_html($url);
foreach($html->find('a') as $element) {
echo url_to_absolute($url, $element->href), "<br />";
}
問題は、これが href をプレーンテキストとして出力することです。「outertext」、「innertext」などの単純なhtml domには、htmlをプレーンhtmlとして取得する組み込み関数があります。上記のコードでこの関数を使用するにはどうすればよいですか? (たとえば) ページ全体をエコーし、echo $html
上記のコードを含めて URL を修正するにはどうすればよいですか?