python - 一致するリンクについてWebサイトのHTMLを検索するPythonスクリプトを作成する方法

Question

私はPythonにあまり精通しておらず、多くの関数を実行するためのスクリプトを作成する必要があります。基本的に、私がまだ必要としているモジュールは、事前に提供された一致するリンクについてWebサイトコードをチェックする方法です。

score 6 · Accepted Answer

マッチングリンクは何ですか？彼らのHREF属性？リンク表示テキスト？おそらく次のようなものです：

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

これにより、のHTMLコンテンツが取得され、 somesite.comBeautifulSoupを使用して解析され、HREF属性が「test」で始まるリンクのみが検索されます。次に、これらのリンクのリストを作成して印刷します。

ドキュメントを使用して、これを変更して何でも実行できます。

score 3 · Accepted Answer

通常、 PythonでWebをプログラミングするには、 urllib、urllib2（htmllibなど）を使用します。mechanize、curlなどを使用することもできます。次に、HTMLの処理とリンクの取得には、BeautifulSoupなどのパーサーを使用することをお勧めします。

score 0 · Accepted Answer

最も包括的なWeb抽出フレームワークであるscrapyを試してください。

http://scrapy.org

python - 一致するリンクについてWebサイトのHTMLを検索するPythonスクリプトを作成する方法

3 に答える 3

Related

Reference