0

ユーザーがインターフェイスに本の名前を入力してすべての情報を表示すると、amazon、homeshop18 などのさまざまな e コマース サイトから本の価格を抽出するための Web アプリを開発する必要があります。

私の質問は、1) そのクエリを amazon サイトの検索ボックスに渡す方法です。サイト全体をクロールするのではなく、クエリに関連するページのみを取得できます。

2) このアプリケーションの開発に使用できるものは? BeautifulSoup か、スクラップピーか? API は、すべての e コマース サイトで使用できるわけではありません。

python.soは初めてなので、どんな助けでも大歓迎です

4

1 に答える 1

1

私は個人的に BeautifulSoup を使用して Web ページを解析していますが、大量のページを解析する必要がある場合は少し遅くなることに注意してください。lxmlの方が高速ですが、コーダーフレンドリーではないことはわかっています。目的の結果ページを取得するための適切なパラメーター (HTTP GET または POST のいずれか) を推測するには、次のように進める必要があります。

  1. Firefox の firebug プラグインまたは Chrome の統合インスペクターをオンにします。
  2. 興味のある Web ページに移動し、検索を実行します
  3. firebug/inspector に移動して、Firefox または Chrome が Web サイトに送信した HTTP リクエストのパラメーターを確認します。
  4. Python スクリプトで要求を再現します。たとえば、urllib を使用して

正しい HTTP GET または POST パラメーターを推測する別の方法があります。それは、Wireshark のようなネットワーク アナライザーを使用することです。これはより詳細なアプローチですが、Firefox/Chrome のツールを使用すると、干し草の山から針を見つけるようなものになります。

于 2013-07-08T12:49:31.203 に答える