-6

ページの URL があれば、タグ内の HTML コンテンツを抽出できる必要があります。Pythonを使用してこれを行う方法はありますか?

4

2 に答える 2

1

BeautifulSoup と呼ばれる Python 用の信じられないほどのスクレイピング ライブラリがあります

BeautifulSoup では、css クラス名などを介して、html タグや html 属性で選択できます。また、不適切な html ドキュメントも非常にうまく処理しますが、どのように機能するかについてはドキュメントを読む必要があります。このライブラリを使用して、わずか数行のコードでスクレイピングできることは、非常に驚​​くべきことです。

楽しむ!

于 2013-07-26T05:04:22.190 に答える
0

BeautifuSoupを使用する

これを行うのは非常に簡単でurllib、Web からデータを取得するために使用し、必要な情報を解析するために BeautifulSoup を使用します。

以下に例を示します。

import urllib2
from bs4 import BeautifulSoup

url = urllib2.urlopen('example.com')

soup = BeautifulSoup(url)

次に、BeautifulSoup を使用して、このような特定のタグを指定して情報を抽出できます

soup.find_all('tag_name')

また、このサイトがbs4 を使用した Web スクレイピングに役立つデータを抽出する方法は他にもたくさんあります。

于 2013-07-26T05:04:38.217 に答える