redis - クローラーを作成するときに、訪問した URL を保持し、ジョブキューを維持する方法

Question

クローラーを書いています。訪問した URL を redis セットに保持し、redis リストを使用してジョブキューを維持します。データが増えるとメモリが使い果たされ、私のメモリは 4G です。これらをredisなしで維持する方法は? これらをファイルに保存する場合、それらもメモリに保存する必要があるかわかりません。

それを保存するためにmysqlを使用すると、おそらくredisよりもはるかに遅いと思います。

私は 4G メモリを搭載した 5 台のマシンを持っています。redis クラスターをセットアップするための材料があれば、それも大いに役立ちます。クラスターをフェイルオーバーに設定するための資料がいくつかありますが、必要なのは、負荷分散されたクラスターを設定することです。

どうも

score 2 · Accepted Answer

セットとリストの追加/削除の基本操作を行っているだけの場合は、temproxy/nutcrackerをご覧ください。これにより、すべてのノードを使用できます。

使用パターン自体に関しては、求人や URL を削除または期限切れにしていますか? システムにはどのくらいの繰り返しがありますか? たとえば、同じ URL を繰り返しクロールしていませんか? その場合、URL を前回のクロール時刻にマッピングするだけで済み、ジョブキューの代わりに、前回の実行以降の新しい URL または特定のウィンドウ外の URL をプルすることができます。

クローラーが実際にどのように実行され、Redis と対話するかについての詳細がなければ、それが私が提供できることです。メモリが継続的に増加する場合は、DB をクリーンアップしていない可能性があります。

redis - クローラーを作成するときに、訪問した URL を保持し、ジョブ キューを維持する方法

1 に答える 1

Related

Reference

redis - クローラーを作成するときに、訪問した URL を保持し、ジョブキューを維持する方法