imgur.com
redditのリンクには拡張子がない.jpg
ため、正規表現は何にも一致しません。i.imgur.com
代わりにドメインを探す必要があります。
マッチングre.findall("http://i.imgur.com/\w+.jpg", links)
は結果を返します:
>>> re.findall("http://i.imgur.com/\w+.jpg", links)
['http://i.imgur.com/PMNZ2.jpg', 'http://i.imgur.com/akg4l.jpg', 'http://i.imgur.com/dAHtq.jpg', 'http://i.imgur.com/dAHtq.jpg', 'http://i.imgur.com/nT73r.jpg', 'http://i.imgur.com/nT73r.jpg', 'http://i.imgur.com/z2wIl.jpg', 'http://i.imgur.com/z2wIl.jpg']
これを他のファイル拡張子に拡張できます。
>>> re.findall("http://i.imgur.com/\w+.(?:jpg|gif|png)", links)
['http://i.imgur.com/PMNZ2.jpg', 'http://i.imgur.com/akg4l.jpg', 'http://i.imgur.com/dAHtq.jpg', 'http://i.imgur.com/dAHtq.jpg', 'http://i.imgur.com/rsIfN.png', 'http://i.imgur.com/rsIfN.png', 'http://i.imgur.com/nT73r.jpg', 'http://i.imgur.com/nT73r.jpg', 'http://i.imgur.com/bPs5N.gif', 'http://i.imgur.com/z2wIl.jpg', 'http://i.imgur.com/z2wIl.jpg']
正規表現の代わりに適切な HTML パーサーを使用したい場合があります。BeautifulSoupとの両方をお勧めしlxml
ます。およびファイルなど、これらのツールとのリンクを<img />
使用するすべてのタグを簡単に見つけることができます。i.imgur.com
.gif
.png