1

私は何千万もの Web ページをクロールするシステムを開発しています。クローラーをゼロから開発したくありません。

次の基準に適合するオープンソースの Web クローラーはどれですか。

  • カスタマイズ可能
  • スケーラビリティの高い
  • ajax Web サイトを簡単にクロールします
  • 賢く這う
  • 礼儀を守る

見落としがある場合は、重要と思われる他の基準を評価してください。

次のオープンソース クローラーのリストがあります。上記の機能を備えていますか?

  1. スクレイピー
  2. 機械化する
  3. ナット
  4. ヘリトリックス
  5. 亜麻
  6. httrack
  7. クモ
  8. サーチャルー
4

1 に答える 1

0

私はしばらくの間、nutch を使用してきましたが、この基準にかなり適合するようです。プラグイン システムを使用すると、新しい資料をクロールして簡単に展開できます。私が苦労したのは、複数のプロキシを使用することでしたが、全体的に非常にカスタマイズ可能です.

于 2012-07-10T23:05:41.303 に答える