多数のページをスクレイプするためにpjscrapeを使用しています。
私が直面している問題は、サーバーは通常、短い遅延で一定数の反復接続が行われた後、ユーザーを禁止することです。
ページスクレイプとそれに続くページの間に遅延を作成するために私が見つけた唯一の方法は、ready関数を使用することです。
pjs.addSuite({
// single URL or array
url: urls,
ready: function() {
return $('#MY_LAST_DIV').length > 0;
},
// single function or array, evaluated in the client
scraper: function() {
//...SCRAPING CODE...
}
});
pjscrapeタイムアウト関数はpotherの問題を処理しているようです(私は以下を参照します)
pjs.config({
...
timeoutInterval: 20000,
timeoutLimit: 20000
});
擦り傷の間隔を作る方法はありますか?