0

たとえば、 http://www.peapod.comなどのWebサイトから製品の詳細の一部を取得したいと思います。

検索からすべての簡潔な製品情報を取得できます。たとえば、「チーズ」を検索すると、そのような商品の重量と価格をすべて取得できます。しかし、より詳細なデータを取得したい場合は、各製品のリンクをクリックする必要があります。これはWebブラウザーから実行できますが、htmlファイルから実行しようとすると、取得したリンク情報はフォーム「javascript:ntn(product_id、some_int)」。

実際のhttpリンクの形式はhttp://www.peapod.com/itemDetailView.jhtml?productId=106871&NUM=1352479733231です。ここで、最初の番号は製品ID、2番目の番号(おそらく)はセッションIDです。JavaScript呼び出しによって親ページのリンクアドレスから製品IDを見つけることができますが、セッションIDを取得するにはどうすればよいですか?

検索ページをダウンロードしようとすると、たくさんのjsファイルが表示されます。これらのjsファイルがセッションIDの取得に役立つと思います。しかし、私はそれらのjsファイルを呼び出す方法がわかりません。

私を助けてください。どうもありがとうございます!

4

1 に答える 1

0

JavaScript 関数を呼び出す何かを作成しようとするのではなく、Fiddler などのツールを使用して、これらのリンクをクリックしたときに何が起こるかを確認する必要があります。ほとんどの場合、これらの関数は、表示するデータを取得するために HTTP 要求を発行します。スクリーン スクレイピング手法を使用するよりも、同じ HTTP 要求を作成してデータを抽出する方が、アプリケーションにとってはるかに簡単です。

于 2012-11-09T17:02:08.263 に答える