html ファイルから画像ソースを見つけて抽出する必要があります。たとえば、次のものが含まれる場合があります。
<image class="logo" src="http://example.site/logo.jpg">
また
<img src="http://another.example/picture.png">
Python の使用。サードパーティのプログラムを使用したくありません。でも、REモジュールは使えます。プログラムは次のことを行う必要があります。
- すべてをふるいにかける
img
またはimage
タグを探す- を見つけて
src
属性値を取得します (二重引用符なし)
これは可能ですか?もしそうなら、どうすればできますか? これを行うためにインターネットにアクセスする必要はないと想定できます (すべての html コードを含む website.html というファイルがあります)。
編集:私の現在の正規表現は
r'<img[^>]*\ssrc="(.*?)"'
と
r'<image[^>]*\ssrc="(.*?)"'
.
主な問題は、式が img または image で始まるすべてのものを取得することです。たとえば、何かが言って<imagesomethingrandom src="website">
いる場合でも、それは画像としてカウントされ(画像という単語が最初にあるため)、ソースが追加されます。
前もって感謝します。
ロブ。