1

apache-nutchはサイトマップをサポートしていますか?または、どうすれば自分で実装できますか?優先フィールドを使用するにはどうすればよいですか?フィールドをブーストするために乗算する必要がありますか?

4

2 に答える 2

1

彼らは今それをサポートしていると思います。このリンクで見つけました

https://wiki.apache.org/nutch/SitemapFeature

于 2014-02-18T17:54:32.193 に答える
1

私が知っているわけではありません。複数の実装であると予想される動作に応じて、より具体的にできますか? 例: + 送信された新しいサイトマップが高いスコアで「挿入」されるようにして、より早くクロールされるようにすることができます。このためには、新しいクロール/フェッチ/インデックス サイクルを開始する前に注入コマンドを追加するだけです + サイトマップで見つかった URL をブーストするスコアリング プラグインを作成できます...ただし、再クロール期間を URL レベルで定義することはできません。サイトマップが示します。Nutch には組み込み関数があり、URL をより頻繁に再クロールし、その逆も同様です。ただし、頻繁にリフレッシュ レートを使用して URL のスコアを上げて、より早くクロールされるようにすることもできます...

于 2011-01-06T20:38:15.797 に答える