1

Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックス ページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URL フォルダー内の seed.txt: http://www5.my-domain.de/

nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。

興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。

何か案は?

4

2 に答える 2

1

ドメイン内リンクの制限があるかどうかを確認してください (nutch-site.xml のプロパティは false です)。また、ページごとの最大イントラ エクストラ リンクや http サイズなど、他のプロパティも確認してください。クロール中に間違った結果が生じることがあります。

チャオ!

于 2011-04-17T13:57:16.710 に答える