3

Nutch 1.5 を使用して (クロール コマンドを使用して) クロールしました。これを投稿すると、readlinkdb ダンプには何も含まれていません。また、インデックス フィルタでは、インリンクは null です。インリンクが null になる原因は何ですか?

4

1 に答える 1

3

特定のサイトだけをインデックスに登録している可能性があります。その場合、db.ignore.internal.linksinnutch-default.xmlが true の場合、nutch は内部リンクを保存しません。false に設定するnutch-site.xmlと、linkdb が成長し始めます。

<property>
  <name>db.ignore.internal.links</name>
  <value>false</value>
  <description>If true, when adding new links to a page, links from
  the same host are ignored.  This is an effective way to limit the
  size of the link database, keeping only the highest quality
  links.
  </description>
</property>
于 2013-04-06T17:08:04.773 に答える