必要な特定の情報を検索して返す Web クローラーがあります。これは毎日実行されます。
問題は、私のクローラーが 2 つのことをしなければならないことです。
- クロールするリンクを取得します。
- リンクをクロールして、データベースにプッシュします。
#1 の問題は、合計で 700 以上のリンクがあることです。これらのリンクはそれほど頻繁に変更されるわけではなく、1 か月に 1 回程度でしょうか。
したがって、1 つのオプションは、月に 1 回「リンクのリスト」を個別にクロールし、リンクをデータベースにダンプすることです。
次に、これらの 700 個のリンクのそれぞれについて、毎日クローラーに db ヒットを実行させます。
または、クローラー内でネストされたクロールを行うこともできます。クローラーが (毎日) 実行されるたびに、この 700 個の URL のリストを更新して配列に保存し、この配列から取得して各リンクをクロールします。
より効率的で、Heroku への負担が少ないのはどれですか? またはどちらのホストですか?