0

私は、同じドメインで複数のスパイダーをジョブとして実行するために、scrapyd を使用しています。スクレイピーには、クロール時に他のスパイダーと共有および調整する、訪問した URL のハッシュテーブルがあると思いました。同じスパイダーのインスタンスを作成するとき

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

むしろ同じ URL をクロールし、重複データがスクレイピングされています。誰かが以前に同様の問題に対処したことがありますか?

4

1 に答える 1