ruby-on-rails - 大規模サイトのクロール、タイムアウトの処理

Question

あなたが私を助けてくれることを願っています。情報を含む 4500 のリンクがある Web サイトをクロールしようとしています。したがって、構造は次のようになります。

Tier 1 (異なるカテゴリのみ)
Tier 2 (異なるトピックを含む)
Tier 3 (トピック情報を含む)

したがって、私のスクリプトはループ内の各カテゴリを開き、トピックごとにトピックを開き、Tier 3 からすべての情報を抽出します。最初から試してみてください（200トピック以降の場合もあれば、2200トピック以降の場合もあります）。私の質問は、どうすれば正しい方法でそれを行うことができるかということです。クラッシュした場合、最初からではなく、以前にクラッシュした次のトピックに進むことができます。Ruby と Crawling は初めてなので、あらゆるアドバイスをいただければ幸いです。

ありがとう！

score 1 · Accepted Answer

この種の質問は、Stack Overflow で定期的に表示されます。単一ページのスクレーパーまたはサイト全体のスパイダーを作成する際には、考慮すべきことがいくつかあります。

詳細については、「ノコギリを使用してサイトのすべてのページを DRY 検索する」および「Ruby ベースの優れた Web クローラーとは?」および「Web クローラーを作成する際の重要な考慮事項は?」を参照してください。これらは、私がスパイダーを書いているときに行う多くのことをカバーしています。

ruby-on-rails - 大規模サイトのクロール、タイムアウトの処理

2 に答える 2

Related

Reference