インデックス作成フィルターで、現在のURL /ドキュメントの元となったアンカーテキストを把握する方法はありますか?インリンクを試しましたが、それはnullのようです。
public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum, Inlinks inlinks) IndexingException {
//Need to know the anchor text from which the current document originated from at this point
}
現在のURLがhttp://foo.com/pagexの場合、pagexへのリンクはhttp://foo.comにあるはずです。このリンクのアンカーテキストを知る必要があります。