2

さて、私はこの 2 日間、自分のニーズに合ったクローラーを探していました。検索エンジンを構築し、自分でインデックスを作成したいと考えています。これは学術プロジェクトの一部になります。ウェブ全体をクロールする処理能力はありませんが、実際にクロールできるクローラーを使用したいと考えています。私が探しているのは、次のようなクローラーです。

  1. マルチスレッドをサポート
  2. 多くのリンクを見逃さない
  3. クロールされたページのコンテンツにアクセスして(メソッドをオーバーライドして)、保存、解析などを行う機会を与えてくれます。
  4. robots.txt ファイルに従います
  5. html ページ (また php、jsp など) をクロールします。
  6. 同じコンテンツのページを認識し、1 つだけを返します。

それが(必ずしも)しなければならないことは次のとおりです。

  1. ページランキングをサポートします。
  2. インデックス結果。
  3. 画像/オーディオ/ビデオ/PDF などをクロールします。

私のニーズに非常に近いいくつかのライブラリ/プロジェクトを見つけましたが、私が知る限り、必要なものすべてをサポートしているわけではありません:

  1. 最初にクローラー4jに出会いました。これに関する唯一の問題は、ホストごとの丁寧さの間隔をサポートしていないことです。したがって、礼儀正しさのレベルを 1000 ミリ秒という適切な値に設定すると、クローラーは非常に遅くなります。
  2. flaxcrawlerも見つけました。これはマルチスレッドをサポートしていましたが、Web ページ内のリンクを見つけてたどるのに問題があるようです。

また、Heritrix や Nutch などのより完全で複雑な「クローラー」についても調べました。私はより複雑なものは得意ではありませんが、必要なことを実行できると確信している場合は、間違いなくそれを使用したいと思っています。彼ら。

簡単に言えば、ウェブ上のすべてのページを非常に高速に通過し、それらに対して何かを行う機会を与えてくれるクローラーを探しています。

4

1 に答える 1

0

私の知る限り、Apache Nutch はほとんどの要件に適合します。Nutch には、必要に応じて独自に作成するのに役立つプラグイン アーキテクチャもあります。ウィキ [0] を参照して、質問がある場合はメーリング リストで質問してください。

[0] http://wiki.apache.org/nutch/FrontPage

于 2013-03-22T18:06:35.023 に答える