-depth
パラメータ&-topN
が Nutch 1.6 でまだ利用可能かどうかを知りたいです。これらのパラメーターと/bin/crawl bash スクリプト
のパラメーターの違いは何ですか?limit
質問する
690 次
1 に答える
0
説明のために:-
depth
depth は、クロールするルート ページからのリンクの深さを示します。
たとえば、ルート ページ スキャンにリンクを含めることができ、その中にリンクが含まれます。これにより、リンクが指数関数的にスキャンされる可能性があります。depth パラメータは、ルート ページからスキャンされるリンクの階層を制限します。topN
N は、深さまでの各レベルで取得されるページの最大数を決定します。
例: ルート ページに 100 個のリンクがあるとします。topN は、各レベルでスキャンされるリンクの数を制限します。
したがって、基本的にスキャンする必要があるリンクの最大数は、ルート ページ * 深さ * topN になります。
また、それらが削除または廃止されたことをドキュメントで確認しないでください。だから私はそれらが利用可能であると仮定します。
于 2013-05-23T13:16:12.040 に答える