python - mechanize、urllib、beautifulsoup、および相対パス

Question

mechanize、urllib、beautifulsoup には、絶対 URL と相対 URL が混在する Web サイトのクロールを処理するためのメソッドが組み込まれていますか?

解決策は多くの例外です

'http://' + 'www.stackoverflow.com'
'http://www.stackoverflow.com' + '/questions/ask'

より良いオプションはありますか？

score 1 · Accepted Answer

記録のために、これが私の解決策でした:)

domain = re.search('(http:\/\/.*\.\D+?|https:\/\/.*\.\D+?)\/',url.strip()).group(1)

if re.search('mailto',url.strip()) != None:
    pass
elif re.search('(http:\/\/.*\.\D+?|https:\/\/.*\.\D+?)\/',url.strip()) != None:
    u = url.strip().encode('utf8')
elif re.search('^/',url.strip()) != None:
    u = domain+url.strip().encode('utf8')
else:
    u = domain+'/'+url.strip().encode('utf8')

python - mechanize、urllib、beautifulsoup、および相対パス

1 に答える 1

Related

Reference