4

私はPythonにあまり精通しておらず、多くの関数を実行するためのスクリプトを作成する必要があります。基本的に、私がまだ必要としているモジュールは、事前に提供された一致するリンクについてWebサイトコードをチェックする方法です。

4

3 に答える 3

6

マッチングリンクは何ですか?彼らのHREF属性?リンク表示テキスト?おそらく次のようなものです:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

これにより、のHTMLコンテンツが取得され、 somesite.comBeautifulSoupを使用して解析され、HREF属性が「test」で始まるリンクのみが検索されます。次に、これらのリンクのリストを作成して印刷します。

ドキュメントを使用して、これを変更して何でも実行できます。

于 2010-03-04T04:39:37.567 に答える
3

通常、 PythonでWebをプログラミングするには、 urlliburllib2(htmllibなど)を使用します。mechanizecurlなどを使用することもできます。次に、HTMLの処理とリンクの取得には、BeautifulSoupなどのパーサーを使用することをお勧めします。

于 2010-03-04T04:08:04.273 に答える
0

最も包括的なWeb抽出フレームワークであるscrapyを試してください。

http://scrapy.org

于 2014-07-05T04:27:50.260 に答える