次のようなリンクがあります。
<div class="zg_title">
<a href="https://rads.stackoverflow.com/amzn/click/com/B000O3GCFU" rel="nofollow noreferrer">Thermos Foogo Leak-Proof Stainless St...</a>
</div>
そして、私はそれらを次のようにスクレイピングしています:
product_asin = product.xpath('//div[@class="zg_title"]/a/@href').first.value
問題は、URL 全体が必要で、ID だけを取得したいことです。
B000O3GCFU
私はこのようなことをする必要があると思います:
product_asin = product.xpath('//div[@class="zg_title"]/a/@href').first.value[ReGEX_HERE]
この場合に使用できる最も単純な正規表現は何ですか?
編集:
リンク URL が完全に表示されないのは奇妙なことです。
http://www.amazon.com/Thermos-Foogo-Leak-Proof-Stainless-10-Ounce/dp/B000O3GCFU/ref=zg_bs_baby-products_1