python - 美しいスープ Google検索からhrefを抽出

Question

Google 検索では、HTML で次の最初の結果が得られます。

<h3 class="r"><a href="https://rads.stackoverflow.com/amzn/click/com/0470284889" rel="nofollow noreferrer" class="l vst" onmousedown="return rwt(this,'','','','1','AFQjCNEv1W9YC2jcSKYdEo2kNqBMJ-Utmg','k89K9hF4cVNpxQYHtEKiUQ','0CCoQFjAA',null,event)"><em>Quantitative Trading</em>: <em>How to Build Your Own Algorithmic</em> <b>...</b> - Amazon</a></h3>

このリンクhttp://www.amazon.com/Quantitative-Trading-Build-Algorithmic-Business/dp/0470284889を抽出したいのですが、美しいスープを使用して情報を抽出すると、

soup.find("h3").find("a").get("href")

代わりに次の文字列を取得します。

/url?q= http://www.amazon.com/Quantitative-Trading-Build-Algorithmic-Business/dp/0470284889&sa=U&ei=P2ycT6OoNuasiAL2ncV5&ved=0CBIQFjAA&usg=AFQjCNEo_ujANAKnjheWDRlBKnJ1BGeA7A

リンクがそこにあることはわかっており、/url?q= と & 記号の後のすべてを削除することで解析できましたが、よりクリーンな解決策があるかどうか疑問に思っていました。

ありがとう！

score 1 · Accepted Answer

urlparse.urlparseとurlparse.parse_qsの組み合わせを使用できます。

>>> import urlparse
>>> url = '/url?q=http://www.amazon.com/Quantitative-Trading-Build-Algorithmic-Business/dp/0470284889&sa=U&ei=P2ycT6OoNuasiAL2ncV5&ved=0CBIQFjAA&usg=AFQjCNEo_ujANAKnjheWDRlBKnJ1BGe'
>>> data = urlparse.parse_qs(
...     urlparse.urlparse(url).query
... )
>>> data
{'ei': ['P2ycT6OoNuasiAL2ncV5'],
 'q': ['http://www.amazon.com/Quantitative-Trading-Build-Algorithmic-Business/dp/0470284889'],
 'sa': ['U'],
 'usg': ['AFQjCNEo_ujANAKnjheWDRlBKnJ1BGe'],
 'ved': ['0CBIQFjAA']}
>>> data['q'][0]
'http://www.amazon.com/Quantitative-Trading-Build-Algorithmic-Business/dp/0470284889'

python - 美しいスープ Google検索からhrefを抽出

2 に答える 2

Related

Reference