約 1000 ~ 2000 の異なるレストランの Web サイトから連絡先情報を収集したいと考えています。それらのほとんどすべてが、ホームページまたは何らかの「連絡先」ページに連絡先情報を持っていますが、2 つの Web サイトがまったく同じということはありません (つまり、悪用する共通のパターンはありません)。Python スクリプトをページ上の特定の要素に明示的に指定せずに、これらのようなサイトからメール/電話 # 情報を確実にスクレイピングするにはどうすればよいですか (つまり、スクリプトは構造にとらわれない必要があります。各サイトには固有の HTML 構造があるため、そうではありません。たとえば、「連絡先」に連絡先情報がありdiv
ます)。
100% 効果的なプログラムを作成する方法がないことはわかっています。ヒット率を最大化したいだけです。
これに関するガイダンス (どこから始めればよいか、何を読むべきか) をいただければ幸いです。
ありがとう。