0

重複の可能性:
PHPでHTMLを解析および処理する方法は?

ページのhtmlをスクラップして、ページの「お問い合わせ」または「お問い合わせ」のURLを見つけることになっているスクリプトに取り組んでいます。だから私が持っているのはURLであり、curlを使用してページのhtmlを取得することができました。

今、私がする必要があるのは、連絡先リンクを見つけて、電子メールアドレスと電話番号を抽出することです。

私の質問は、連絡先のURLをどのように作成するかです。何を探すべきですか?リンクテキストにcontactという単語が含まれている必要がありますか、それともURLにcontactという単語が含まれている必要がありますか?そのための正規表現はどのようになりますか?

次に、連絡先ページができたら、電子メールアドレスと電話番号を抽出する正規表現をオンラインで見つけることができるはずです。だから私は連絡先のリンクを見つける必要があります。私がスクレイピングしているこれらのページはブログです。

4

2 に答える 2

1

連絡先ページの URL を見つけるには、XML パーサーを使用して DOM を「スキャン」する方がよいと思います (例: タグ)。

jQuery を知っている場合は、jQuery セレクターを模倣する PHP HTML パーサーであるphpQueryを使用できます。

基本的に、正規表現を使用して HTML を解析することは一般的に悪い考えです。Parsing Html The Cthulhu Wayを参照してください。

于 2012-11-29T15:09:23.883 に答える
0

その連絡先ページをカールしてから、preg_match $ result = curl_exec($ resource)

preg_match_all("/[\._a-zA-Z0-9-]+@[\._a-zA-Z0-9-]+/i", $result, $matches);
  print_r($matches[0]);
于 2012-11-29T15:34:48.903 に答える