python - ウェブページをスキャンして画像やYouTubeの埋め込みを取得するにはどうすればよいですか？

Question

特定のURLに埋め込まれているすべての画像とフラッシュビデオ（YouTubeなど）を取得する必要があるWebアプリを構築しています。私はPythonを使用しています。

私はグーグルで検索しましたが、これについての良い情報は見つかりませんでした（おそらくこれが何を検索するのかわからないためです）、誰かがこれを経験していて、それがどのようにできるか知っていますか？

利用可能なコード例があれば、ぜひご覧ください。

ありがとう！

score 7 · Accepted Answer

BeautifulSoupは素晴らしいスクリーンスクレイピングライブラリです。urllib2を使用してページをフェッチし、BeautifulSoupを使用してページを解析します。ドキュメントのコードサンプルは次のとおりです。

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
    where, linebreak, what = incident.contents[:3]
    print where.strip()
    print what.strip()
    print

python - ウェブページをスキャンして画像やYouTubeの埋め込みを取得するにはどうすればよいですか？

1 に答える 1

Related

Reference