これは、私がスクレイプしようとしている HTML のスニペットです。
<div class="dot"><hr/></div>
<h2>Description</h2>
<p>This is the information I am trying to scrape</p>
</div>
IDもクラスも持たないため、XPathを使用して内容を取得することはできないと思います<p>
.firebugによって提供されるXPathの上の他の情報によっては、/html/body/div[3]/div/div[???]/p[2]
-どこで??? 1 ~ 5 の数字です。
それが正しければ、古き良き正規表現(私は役に立たない)に戻ったと推測していますが、残念ながら、これは私が試してキャッチするために思いついた最高のものです:
preg_match('/<h2>Description<\/h2>\s*<p>(.+)<\/p>/',$html,$rawdesc);
もちろん、それはうまくいきません....または、私はあなたの慈悲に身を投じることはありません:)