-7

ウェブページを保存できるように、ブログ投稿を投稿データとして送信するワードプレスプラグインを作成しました。次のクエリを使用してブログからデータを取得します。

select * from $wpdb->posts 

上記の行は重要ではありませんが、ブログデータを取得する方法を説明するために言及しただけです。

データにはHTMLマークアップが含まれています。HTMLを解析して画像のURLを取得する必要があります。URLを取得したら、URLから画像をダウンロードする方法を知っています。エラーなしで画像のURLを取得するためにHTMLマークアップを解析する良い方法を知りたいです。

Pythonが推奨言語です。

4

1 に答える 1

0

これを行う Python モジュールがいくつかあります。

  • 美しいスープ
  • lxml.html
  • html5lib

例えば、

import BeautifulSoup

html = """
  <html><body>
    <h1>My html!</h1>
    <img src="yourimage1.jpg" />
    <img src="yourimage1.jpg" />
  </body></html>
"""

bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]

結果はurls == ['yourimage1.jpg', 'yourimage2.jpg']

于 2012-07-11T14:28:37.373 に答える