0

Python でリンク クローラーを作成しようとしています。私はハーベストマンについて知っていますが、それは私が探しているものではありません. これが私がこれまでに持っているものです:

import httplib, sys

target=sys.argv[1]
subsite=sys.argv[2]
link = "http://"+target+subsite

def spider():
    while 1:
        conn = httplib.HTTPConnection(target)
        conn.request("GET", subsite)
        r2 = conn.getresponse()
        data = r2.read().split('\n')
        for x in data[:]:
            if link in x:
                print x
spider()

しかし、x をフィルタリングする方法が見つからないようなので、リンクを取得できます。

4

2 に答える 2

1

私はうまくいくと思う

import re
re.findall("href=([^ >]+)",x)
于 2013-06-17T23:20:16.287 に答える