非常に長いhtmlファイルから画像のURLを選択しようとしています。ファイルは次のようになります。
...Lots_of_html><a href=somelink.com>Human Readable Text</a><img src="http://image.com">....
上記のhtmlからhttp://image.comを選びたいのですが、運が悪かったので次のことを試しました。
sed -n ‘s%.*src=%%;s%\".*%%p’ image_urls.txt
sed -n ‘s%.*src=%%;s%\".*%%p’ image_urls.txt
import re
rex = re.compile(r'src=.(.*?)>',re.S|re.M)
data="<long html string>"
match = rex.match(data)
私は正規表現の経験があまりないので、上記でいくつかの基本的なエラーが発生していると思います。助けていただければ幸いですが、特にsedコマンドの1つを機能させて、bashスクリプトに簡単に統合できるようにしたいと思います。
前もって感謝します。