0

EclipseでNutchを使用してクロールを実行しようとしています。

urlsというファイルを使用していますが、このファイルには

http://www.google.com/

ただし、プロジェクトを実行すると、Generatorクラスは次のように通知します。

「フェッチ、終了のために選択された0レコード」

この問題を解決するにはどうすればよいですか?

私はこれらのドキュメントに従いました:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

どんな助けでも大歓迎です。

4

2 に答える 2

1

私は最近この問題に遭遇し、ほとんどの回答が (regex|crawl)-urlfiters.txt に関するものであることがわかりました。もう 1 つ確認すべきことは、「-topN」設定です。これは、ジェネレーターがすべてのフィルターを通過するのに十分な大きさである必要があります。

これが役立つことを願っています。

于 2012-07-25T23:38:55.473 に答える
0

最も可能性が高いのは、regex-urlfilter.xml です。これを使用してみて、問題が解決するかどうかを確認してください

-^(ファイル|ftp|メールアドレス):

-.(gif|GIF|jpg|JPG|png|PNG|ico|js|ICO|doc|mp3|MP3|DOC|css|rss|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm |tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

-.*(/[^/]+)/[^/]+\1/[^/]+\1/

+。

于 2011-02-04T06:49:56.593 に答える