web-crawler - 404/500エラーを検出するためにサイトをクロールする方法は？

Question

404/500エラーを探す（つまり、200の応答を確保する）ためにサイトをクロールする（すべてのローカルリンクをクリックする）高速な（おそらくマルチスレッドの）方法はありますか？

また、各タイプのリンクの1つだけをクリックするように設定できるようにしたいと思います。したがって、1000のカテゴリページがある場合、クリックするのは1つだけです。

http://code.google.com/p/crawler4j/は良いオプションですか？

セットアップが非常に簡単なものが欲しいのですが、JavaよりもPHPの方が好きです（ただし、Javaの方がはるかに高速であれば、問題ありません）。

score 3 · Accepted Answer

古くて安定したXenuツールを使用してサイトをクロールできます。

100スレッドを使用するように彼を構成し、ステータスコード[500 \ 404 \ 200\403]で結果を並べ替えることができます。

score 0 · Accepted Answer

これは、任意の数のオープンソースPythonプロジェクトで非常に簡単に実装できます。

これらの方法のいずれかを使用してサイトをクロールし、サーバーの応答を確認します。これは非常に簡単です。

ただし、サイトマップ（またはすべてのURLを含む任意の種類のリスト）がある場合は、cURLまたはurllibを使用してそれぞれを開いてみて、クロールせずに応答を取得できます。

score 0 · Accepted Answer

「速い」を定義しますか？あなたのサイトはどれくらいの大きさですか？cURLは良いスタートです：http：//curl.haxx.se/docs/manual.html

あなたが本当に巨大なサイトを持っていて、それを秒単位の時間スケールでテストする必要がない限り、URLをリストに列挙してそれぞれを試してみてください。

3 に答える 3