1

Web全体から製品のデータ(価格、タイトルなど)をスクレイピングするスクレイピングツールを開発する必要があります。今、私はスクレイピングの経験がありますが、それは単一のWebサイト用です。Web全体をどのようにスクレイプするのかわかりません。考えられる解決策の1つは、Googleにクエリを実行してから、Googleに表示されるリンクから各Webサイトを取得することです。これは良いアプローチですか?

私が見ているように、各サイトには独自のデータ表現方法がある可能性があるため、この問題をどのように解決するかについての一般的なアプローチが必要です。これらすべてのバリエーションを組み込むにはどうすればよいですか?ガイドライン/ヒントはありますか?

4

2 に答える 2

1

Googleには、マルチWebサイトの価格比較機能が組み込まれています。http ://www.google.co.uk/shoppingを参照してください。

グーグル独自のカスタム検索APIまたはcurlを使用してそのリソースをクエリしてみることができますが、グーグルはスクレイプするのが難しいことで有名であり、カールスクリプトまたは類似のものが使用されていると思われる場合はIPをロックする可能性があるため、APIの方がおそらく良い選択です。別の方法は、複数のサイトを手作業でコーディングするというアイデアがあなたを恐怖で満たす場合、他の誰かの比較サイトからデータを引き出すことです。

于 2012-04-15T02:28:32.047 に答える
1

あなたが話していることを定義する用語は、Webクローラーです。ウィキペディアの記事を見たことがありますか?

http://en.wikipedia.org/wiki/Web_crawler

于 2012-04-15T02:50:20.300 に答える