1

インデックス作成フィルターで、現在のURL /ドキュメントの元となったアンカーテキストを把握する方法はありますか?インリンクを試しましたが、それはnullのようです。

public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum,          Inlinks inlinks) IndexingException {

    //Need to know the anchor text from which the current document originated from at this  point

}

現在のURLがhttp://foo.com/pagexの場合、pagexへのリンクはhttp://foo.comにあるはずです。このリンクのアンカーテキストを知る必要があります。

4

1 に答える 1

0

アンカーテキストはinlinksにありますが、これを入力するには、両方db.ignore.internal.linkslinkdb.ignore.external.linksをで設定する必要がありfalseますnutch-default.xml。または、でオーバーライドすることもできますnutch-site.xml

于 2014-05-02T06:41:06.010 に答える