私はウェブページにアクセスして、ウェブサイトの所有者が彼に連絡することを許可しているかどうかを確認しようとしています..
ここはhttp://pastebin.com/12rLXQazです
これは、各スレッドが呼び出す関数です。
def getpage():
try:
curl = urls.pop(0)
print "working on " +str(curl)
thepage1 = requests.get(curl).text
global ctot
if "Contact Us" in thepage1:
slist.write("\n" +curl)
ctot = ctot + 1
except:
pass
finally:
if len(urls)>0 :
getpage()
しかし、問題はプログラムのメモリが増え続けることです.. (pythonw.exe)
スレッドが関数を再度呼び出すと、条件は true になります。プログラムのメモリは、少なくともほぼ同じレベルに留まる必要があります。
約 10 万の URL を含むリストの場合、プログラムは 3GB をはるかに超えて消費し、さらに増加しています...