python - HTMLソースコードを解析して、エラーなしで画像のURLを取得します。（Pythonを推奨）

Question

ウェブページを保存できるように、ブログ投稿を投稿データとして送信するワードプレスプラグインを作成しました。次のクエリを使用してブログからデータを取得します。

select * from $wpdb->posts

上記の行は重要ではありませんが、ブログデータを取得する方法を説明するために言及しただけです。

データにはHTMLマークアップが含まれています。HTMLを解析して画像のURLを取得する必要があります。URLを取得したら、URLから画像をダウンロードする方法を知っています。エラーなしで画像のURLを取得するためにHTMLマークアップを解析する良い方法を知りたいです。

Pythonが推奨言語です。

score 0 · Accepted Answer

これを行う Python モジュールがいくつかあります。

美しいスープ
lxml.html
html5lib

例えば、

import BeautifulSoup

html = """
  <html><body>
    <h1>My html!</h1>
    <img src="yourimage1.jpg" />
    <img src="yourimage1.jpg" />
  </body></html>
"""

bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]

結果はurls == ['yourimage1.jpg', 'yourimage2.jpg']

python - HTMLソースコードを解析して、エラーなしで画像のURLを取得します。（Pythonを推奨）

1 に答える 1

Related

Reference