0

http://www.nfl.com/widget/gc/2011/tabs/cat-post-boxscore?gameId=2012093000

上記のリンクのようなページからデータ (つまり、ゲーム レベルの NFL データ) をスクレイピングしようとしています。

NFL.com には、このデータの多くにアクセスできる便利な JSON API があります。つまり、2010 年以降のゲームの場合です。以前のゲームでは、上記のようなページの HTML を解析する必要があります。

Xpathを使用してこれをスクレイピングしようとしています。ただし、クラス "thd2" のテーブル行であるテーブル ヘッダーと、クラス "tbdy1" のテーブル行であるデータを区別するのが難しいことがわかりました。

このデータをループしてデータ、テーブルヘッダーを抽出し、それらを配列に入れる方法を誰かが知っているなら、あなたのアプローチを見たいです!

$curl = curl_init('http://www.nfl.com/widget/gc/2011/tabs/cat-post-boxscore?gameId=2012093000');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.10 (KHTML, like Gecko) Chrome/8.0.552.224 Safari/534.10');

$html = curl_exec($curl);
curl_close($curl);

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);

$tables = $xpath->query('//table[1]/tbody/td');
var_dump($tables);
4

0 に答える 0