1

ホストごとにインデックスするページの最大数を設定するにはどうすればよいですか? サイトの 100 万ページすべてをインデックスに登録するのではなく、見つかった最初の 100000 ページのみをインデックスに登録したい。

4

1 に答える 1

0

depth=10 および topN=1000 を使用すると、インデックスに 10000 を超えるドキュメントはありません (再クロールしない場合)。「深さ」パラメーターは、Nutch が実行される反復の回数を示します。「topN」パラメーターは、1 回の反復中にフェッチされる URL の最大数を制御します。したがって、「深さ」に「topN」を掛けると、インデックスに登録される URL の数の概算が得られます。タイムアウトするか、404 を返す URL がある可能性があるため、これは概算です。

再クロールしたくない場合は、'db.fetch.interval.default' がクロール ジョブを完了するのに十分な高い値に設定されていることを確認してください。その間隔が切れたときにクロール ジョブが完了していない場合、いくつかの URL の再クロールが開始されるため、インデックスに登録された URL の数は depth*topN よりも少なくなります。

于 2010-10-06T16:15:57.130 に答える