Python でリンク クローラーを作成しようとしています。私はハーベストマンについて知っていますが、それは私が探しているものではありません. これが私がこれまでに持っているものです:
import httplib, sys
target=sys.argv[1]
subsite=sys.argv[2]
link = "http://"+target+subsite
def spider():
while 1:
conn = httplib.HTTPConnection(target)
conn.request("GET", subsite)
r2 = conn.getresponse()
data = r2.read().split('\n')
for x in data[:]:
if link in x:
print x
spider()
しかし、x をフィルタリングする方法が見つからないようなので、リンクを取得できます。