Nutch 1.5 を使用して (クロール コマンドを使用して) クロールしました。これを投稿すると、readlinkdb ダンプには何も含まれていません。また、インデックス フィルタでは、インリンクは null です。インリンクが null になる原因は何ですか?
1 に答える
3
特定のサイトだけをインデックスに登録している可能性があります。その場合、db.ignore.internal.links
innutch-default.xml
が true の場合、nutch は内部リンクを保存しません。false に設定するnutch-site.xml
と、linkdb が成長し始めます。
<property>
<name>db.ignore.internal.links</name>
<value>false</value>
<description>If true, when adding new links to a page, links from
the same host are ignored. This is an effective way to limit the
size of the link database, keeping only the highest quality
links.
</description>
</property>
于 2013-04-06T17:08:04.773 に答える