2

Apache nutch を使用して、特定のファイル パスのみをクロールしようとしています。たとえば、私のURLが次の場合:

www.foo.com/shoes/

www.foo.com/shoes/nike と www.foo.com/shoes/addidas と www.foo.com/shoes/addidas/soccer のような URL をクロールし続けたいと思いますが、www.foo のような他のディレクトリはクロールしません。 .com/clothes または www.foo.com/watches。とにかくナットがこれを行うことができますか?

4

1 に答える 1