1

これが私の一般的な考えです。先月の iPad 2 の平均価格を見つけるために、複数の販売 Web サイト (ebay など) を検索します。

このようなことをするための指示だけが欲しいです。言語は PHP または Python で、オープン ソース プロジェクトを使用できます。

問題は、そのようなシステムには、少なくとも日付間隔やオブジェクトの名前など、いくつかのカスタム パラメーターが必要なことです。

では、Web サイトごとにカスタム クローラーが必要でしょうか?

価値を製品にどのように関連付けることができますか?

これらの販売サイトでは、どのような問題が発生する可能性がありますか?

ええと、似たようなことをする正しい方法についてアドバイスが本当に必要です。

4

1 に答える 1

1

だからおそらく私は各ウェブサイトにカスタムクローラーが必要になりますか?

いいえ、ウェブサイトごとにその一部をカスタマイズする必要がありますが、基盤となるエンジンは同じままです。また、必要な情報は一部だけなので、それだけを取得するようにカスタマイズする必要があります。

価値を製品にどのように関連付けますか?

あなたはそのデータをこすり取っただけです、それのその側面を管理するのはあなた次第です。ただし、製品Xをスクレイピングしている場合は、その製品の価格のリストを保持し、(たとえば)そのリストの内容を平均して平均価格を取得します。そのリストを製品に関連付ける方法は、基盤となるデータベースの実装によって異なります。

これらの販売サイトで問題が発生する可能性はありますか?

はい、もちろん、サイトが変更されると、スクレーパーが機能しなくなる可能性があります。これが、コンテンツを取得するためにページの構造が変更されないことに依存しないため、常にAPIを使用する方がよい理由です。

さて、私は本当に似たようなことをする正しい方法についていくつかのアドバイスが必要です。

HTMLを選択するよりもAPIを使用してください。車輪の再発明ではなく、既存のツールを使用します。 http://wwwsearch.sourceforge.net/mechanize/

http://scrapy.org/

http://seleniumhq.org/

Python用のAmazonAPIライブラリ?

于 2013-01-02T10:40:42.760 に答える