Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックス ページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。
crawl-urlfilter.txt: +^http://www5.my-domain.de/
URL フォルダー内の seed.txt: http://www5.my-domain.de/
nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000
depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。
興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。
何か案は?