PHPを使用したWebスクレイピングのチュートリアルに従おうとしています。
何が起こっているのか大まかに理解していますが、スクレイピングされたものをフィルタリングして、必要なものを正確に取得する方法がわかりません。例えば:
<?php
$file_string = file_get_contents('page_to_scrape.html');
preg_match('/<title>(.*)<\/title>/i', $file_string, $title);
$title_out = $title[1];
?>
はタイトル タグの間のすべてを取得するようですが(.*)
、正規表現を使用して特定の情報を取得できますか。彼のタイトルの中でWelcome visitor #100
、ハッシュの後に来る番号をどのように取得するとしますか?
または、タグ間のすべてを取得して、後で操作する必要がありますか?