URL シードリストに 100000 を超える URL が含まれています。私は、nutch がシードリストの URL だけでなく、Web サイト内で見つかった URL リンクもクロールすることを知っています。ただし、この動作を停止する方法はありますか? シードリストで指定された URL のみをクロールする必要があるようにします。
2 に答える
3
nutch-site.xml 構成で、「db.ignore.external.links」プロパティを true に設定します。
これにより、挿入されたリスト以外のドメインへの URL は無視されます。
于 2013-01-10T06:18:41.290 に答える
0
クロール コマンドを使用している場合は、深さパラメータを確認してください。
-depth depth は、クロールするルート ページからのリンクの深さを示します。
これを使用すると、Nutch がクロールするのに必要な深さのレベルを制御できます。値を 1 にすると、おそらくベース ページのみに制限されます。
于 2013-01-10T03:45:51.223 に答える