ページの HTML ソースを取得する次のコードがあります。
$page = file_get_contents('http://example.com/page.html');
$page = htmlentities($page);
私はそこからいくつかのコンテンツをスクレイピングしたい。たとえば、ページのソースに次の内容が含まれているとします。
<strong>technorati.com</strong><br />
Connection failed<br /><br />Pinging <strong>icerocket.com</strong><br />
Connection failed<br /><br />Pinging <strong>weblogs.com</strong><br />
Done<br /><br />Pinging <strong>newsgator.com</strong><br />
Done<br /><br />Pinging <strong>blo.gs</strong><br />
Done<br /><br />Pinging <strong>feedburner.com</strong><br />
Done<br /><br />Pinging <strong>blogstreet.com</strong><br />
Done<br /><br />Pinging <strong>my.yahoo.com</strong><br />
Connection failed<br /><br />Pinging <strong>moreover.com</strong><br />
Connection failed<br /><br />Pinging <strong>newsisfree.com</strong><br />
Done<br />
これをソースからスクレイピングして変数に格納する方法はありますか?次のようになります。
technorati.com接続に失敗しました
icerocket.com接続に失敗しました
eblogs.com完了Ect
.
ページが動的であるため、問題が発生しています。ソース内の各サイトを検索できますか? しかし、その後の結果をどのように得るのでしょうか? (接続失敗/完了)
助けてくれてありがとう!