小さなパッチでは、Nutch を這わせることができません。パラメーター -depth 7 および -topN 10000 を指定したbin/nutch のクロールコマンドで開始します。私のHDDが空になったときだけ終了します。私は何をする必要がありますか:
- アウトリンクをさらに進める可能性があるので、シードのクロールを開始します。
- 20000 ページをクロールし、インデックスに登録します。
- さらに 20000 ページをクロールしてインデックスを作成し、最初のインデックスとマージします。
- ステップ 3 を n 回ループします。
wiki で見つかったスクリプトでも試してみましたが、見つかったすべてのスクリプトはそれ以上進みません。もう一度実行すると、最初からすべてが実行されます。スクリプトの最後には、クロールを開始したときと同じインデックスがあります。しかし、私はクロールを続ける必要があります。