4

404/500エラーを探す(つまり、200の応答を確保する)ためにサイトをクロールする(すべてのローカルリンクをクリックする)高速な(おそらくマルチスレッドの)方法はありますか?

また、各タイプのリンクの1つだけをクリックするように設定できるようにしたいと思います。したがって、1000のカテゴリページがある場合、クリックするのは1つだけです。

http://code.google.com/p/crawler4j/は良いオプションですか?

セットアップが非常に簡単なものが欲しいのですが、JavaよりもPHPの方が好きです(ただし、Javaの方がはるかに高速であれば、問題ありません)。

4

3 に答える 3

3

古くて安定したXenuツールを使用してサイトをクロールできます。

100スレッドを使用するように彼を構成し、ステータスコード[500 \ 404 \ 200\403]で結果を並べ替えることができます。

于 2012-07-24T22:33:12.913 に答える
0

これは、任意の数のオープンソースPythonプロジェクトで非常に簡単に実装できます。

  1. Mechanizeはかなり人気があるようです
  2. 美しいスープとurllib

これらの方法のいずれかを使用してサイトをクロールし、サーバーの応答を確認します。これは非常に簡単です。

ただし、サイトマップ(またはすべてのURLを含む任意の種類のリスト)がある場合は、cURLまたはurllibを使用してそれぞれを開いてみて、クロールせずに応答を取得できます。

于 2012-07-24T21:35:14.603 に答える
0

「速い」を定義しますか?あなたのサイトはどれくらいの大きさですか?cURLは良いスタートです:http://curl.haxx.se/docs/manual.html

あなたが本当に巨大なサイトを持っていて、それを秒単位の時間スケールでテストする必要がない限り、URLをリストに列挙してそれぞれを試してみてください。

于 2012-07-24T21:35:30.640 に答える