0

URL シードリストに 100000 を超える URL が含まれています。私は、nutch がシードリストの URL だけでなく、Web サイト内で見つかった URL リンクもクロールすることを知っています。ただし、この動作を停止する方法はありますか? シードリストで指定された URL のみをクロールする必要があるようにします。

4

2 に答える 2

3

nutch-site.xml 構成で、「db.ignore.external.links」プロパティを true に設定します。

これにより、挿入されたリスト以外のドメインへの URL は無視されます。

于 2013-01-10T06:18:41.290 に答える
0

クロール コマンドを使用している場合は、深さパラメータを確認してください。

-depth depth は、クロールするルート ページからのリンクの深さを示します。

これを使用すると、Nutch がクロールするのに必要な深さのレベルを制御できます。値を 1 にすると、おそらくベース ページのみに制限されます。

于 2013-01-10T03:45:51.223 に答える