solr - Apache Nutch は Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します

Question

Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックスページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URL フォルダー内の seed.txt: http://www5.my-domain.de/

nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。

興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。

何か案は？

score 1 · Accepted Answer

ドメイン内リンクの制限があるかどうかを確認してください (nutch-site.xml のプロパティは false です)。また、ページごとの最大イントラエクストラリンクや http サイズなど、他のプロパティも確認してください。クロール中に間違った結果が生じることがあります。

チャオ！

solr - Apache Nutch は Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します

2 に答える 2

Related

Reference