3

約 1000 ~ 2000 の異なるレストランの Web サイトから連絡先情報を収集したいと考えています。それらのほとんどすべてが、ホームページまたは何らかの「連絡先」ページに連絡先情報を持っていますが、2 つの Web サイトがまったく同じということはありません (つまり、悪用する共通のパターンはありません)。Python スクリプトをページ上の特定の要素に明示的に指定せずに、これらのようなサイトからメール/電話 # 情報を確実にスクレイピングするにはどうすればよいですか (つまり、スクリプトは構造にとらわれない必要があります。各サイトには固有の HTML 構造があるため、そうではありません。たとえば、「連絡先」に連絡先情報がありdivます)。

100% 効果的なプログラムを作成する方法がないことはわかっています。ヒット率を最大化したいだけです。

これに関するガイダンス (どこから始めればよいか、何を読むべきか) をいただければ幸いです。

ありがとう。

4

2 に答える 2

1

ほとんどの国では、電話番号は、単純な正規表現と照合できる、明確に定義された数少ないパターンの 1 つに従います。同様に、電子メール アドレスは、国際的に認められた形式を持っています。ホームページ、連絡先、またはお問い合わせページをスクレイピングし、正規表現で解析するだけです。 90% 以上の精度を簡単に達成できるはずです。

あるいはもちろん、レストランの名前と町を地元のイエロー ページ Web サイトに送信するだけです。

于 2013-06-28T14:13:19.203 に答える