-2

サイトのリストにアイテムを追加するための Amazon ボタンを見ると、ここで確認できます。

http://www.amazon.co.uk/wishlist/get-button

それはどのように機能しますか?何らかの形でページをスクレイピングしていると確信していますが、問題のサイトが絶対的な完全なサイトURLではなく相対img srcを使用している場合でも、フラッシュ画像、jpgなどのすべての画像を取得しているようです

以下のページの例では、表示されているすべての画像はクールな jpg ですが、すべての img src は相対的であり、それらの前に「http://blah.com」がないことを意味します

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

HTMLソースを解析する以外に画像を取得するより良い方法はありますか?

それとも、すぐにヒットしない場合は、百万の ifs を実行しているだけですか?

4

1 に答える 1

0

ページの HTML を解析し、主要な画像、名前、価格として意味的に識別されるものを探しているようです。たとえば、e コマース製品がないページを見ると、たとえばhttp://www.theglobeandmail.com/は、ページの h1 要素を製品名とプライマリ イメージ (フロント ページのストーリー イメージ) として使用します。 )商品画像の通りです。

そのため、彼らは舞台裏で多くの推測を行っています。HTML 5 セマンティック マークアップを使用すると、この種の標準を確立できますが、誰もがそれを使用していない限り、知識に基づいた推測に過ぎません。

于 2012-08-24T16:43:56.617 に答える