あなたの経験から、Yellow Pages Web サイトでプログラムを使用して用語を検索し、結果から連絡先情報をかき集めて CSV ファイルにするのはどのくらい難しいと思いますか?
3 に答える
YP Search APIをそのまま使用できますか? アクセスは無料で、開発者アカウントのセットアップには 1 分しかかかりません。
Perl と WWW::Robot のようないくつかのモジュールを使用することは、おそらくそれほど難しくありません。私は試していませんが、あなたは Python を知っているので、Scrapy が役立つかもしれません。http://scrapy.org
IP が禁止される可能性があるため、クロールするときにサイトを叩かないことを忘れないでください。
適切なモジュールとライブラリがあれば、非常に実行可能です! ただし、Perl または Python などのツールによって異なります。C++ でこれを行おうとしている場合は、もう少し苦労するかもしれません。
あなたの状況(言語フレームワークの制約)についてより多くの情報を提供していただければ、より具体的にすることができます。
また、スクレイピングに関して考慮すべき法的な問題もあります。ボットに関するイエロー ページ ポリシーについてはよくわかりません。先に進む前に、robots.txt を読んでください。http://www.robotstxt.org/は、このことについて学ぶための開始情報を提供するはずです。
安全かつ合法である最善の方法は、API http://developer.yp.com/を使用することです。