python - Python を使用した特定のタグの Web スクレイピング

Question

ページの URL があれば、タグ内の HTML コンテンツを抽出できる必要があります。Pythonを使用してこれを行う方法はありますか?

score 1 · Accepted Answer

BeautifulSoup と呼ばれる Python 用の信じられないほどのスクレイピングライブラリがあります。

BeautifulSoup では、css クラス名などを介して、html タグや html 属性で選択できます。また、不適切な html ドキュメントも非常にうまく処理しますが、どのように機能するかについてはドキュメントを読む必要があります。このライブラリを使用して、わずか数行のコードでスクレイピングできることは、非常に驚くべきことです。

楽しむ！

score 0 · Accepted Answer

BeautifuSoupを使用する

これを行うのは非常に簡単でurllib、Web からデータを取得するために使用し、必要な情報を解析するために BeautifulSoup を使用します。

以下に例を示します。

import urllib2
from bs4 import BeautifulSoup

url = urllib2.urlopen('example.com')

soup = BeautifulSoup(url)

次に、BeautifulSoup を使用して、このような特定のタグを指定して情報を抽出できます

soup.find_all('tag_name')

また、このサイトがbs4 を使用した Web スクレイピングに役立つデータを抽出する方法は他にもたくさんあります。

python - Python を使用した特定のタグの Web スクレイピング

2 に答える 2

Related

Reference