python - 指定された文字列 python のみが含まれるように変数をフィルタリングする

Question

Python でリンククローラーを作成しようとしています。私はハーベストマンについて知っていますが、それは私が探しているものではありません. これが私がこれまでに持っているものです：

import httplib, sys

target=sys.argv[1]
subsite=sys.argv[2]
link = "http://"+target+subsite

def spider():
    while 1:
        conn = httplib.HTTPConnection(target)
        conn.request("GET", subsite)
        r2 = conn.getresponse()
        data = r2.read().split('\n')
        for x in data[:]:
            if link in x:
                print x
spider()

しかし、x をフィルタリングする方法が見つからないようなので、リンクを取得できます。

score 1 · Accepted Answer

1

私はうまくいくと思う

import re
re.findall("href=([^ >]+)",x)

于 2013-06-17T23:20:16.287 に答える

python - 指定された文字列 python のみが含まれるように変数をフィルタリングする

2 に答える 2

Related

Reference