私は非常にうまく機能し、ほとんどの場合、循環ループトラップでスタックすることを回避する非常に単純なクロールエンジンをまとめました。(つまり、ページAはページBにリンクし、ページBはページAにリンクします)。
このループでスタックするのは、両方のページがキャッシュバスタークエリ文字列で相互にリンクしている場合のみです。基本的には、更新ごとにすべてのリンクで一意のクエリ文字列です。
これにより、ページは常にクローラーにとって新しいページのように見え、クローラーは2つのページ間を移動してスタックします。
2つのページ間でN回バウンスした後、クエリ文字列だけが異なる(これはあまり良いアプローチではないと思います)以外に、これらのトラップを検出して解決する方法は他にあります... ?