Python マルチプロセッシング モジュールを使用して Web サイトをスクレイピングしています。現在、この Web サイトには 100,000 ページを超えるページがあります。私がやろうとしているのは、取得した 500 ページごとに別のフォルダーに入れることです。問題は、新しいフォルダーを正常に作成しても、スクリプトが以前のフォルダーにしかデータを入力しないことです。コードは次のとおりです。
global a = 1
global b = 500
def fetchAfter(y):
global a
global b
strfile = "E:\\A\\B\\" + str(a) + "-" + str(b) + "\\" + str(y) + ".html"
if (os.path.exists( os.path.join( "E:\\A\\B\\" + str(a) + "-" + str(b) + "\\", str(y) + ".html" )) == 0):
f = open(strfile, "w")
if __name__ == '__main__':
start = time.time()
for i in range(1,3):
os.makedirs("E:\\Results\\Class 9\\" + str(a) + "-" + str(b))
pool = Pool(processes=12)
pool.map(fetchAfter, range(a,b))
pool.close()
pool.join()
a = b
b = b + 500
print time.time()-start