java - Nutch-Hadoop:- 再クロールする URL の更新のみをクロールするにはどうすればよいですか?

Question

再クロールする URL の更新を特定する方法を誰か教えてください。ページが再クロールするときに、既にクロールされた古いコンテンツではなく、ページの更新されたコンテンツのみをクロールしたい。前もって感謝します。プラギャ..

score 1 · Accepted Answer

サーバー側でコンテンツが変更された場合にのみ、URL を再クロールしたいということだと思います。Nutch にそれを識別させて、コンテンツを取得するかどうかをスマートに決定する必要があります。

Nutch には、ページの「最終更新」時刻を維持するというこの概念があり、ページの再クロール中に保存され、使用されません。彼らはそれがディスク容量と帯域幅を節約することを知っていましたが、他の問題のために興味をそそられませんでした. 人々はこの問題を提起しましたが、まだ Nutch 開発チームからの活動は見られません。改善するための努力が払われましたが、現在のバージョンが「最終更新日」フィールドをどの程度正確に使用しているかはまだわかりません。

score 1 · Accepted Answer

ページの更新されたコンテンツのみを取得し、変更されていない残りのデータを忘れるように Nut に指示することはできません。毎回完全なコンテンツを取得します。ページが更新された後に再クロールされるように、再クロールの頻度を適切に設定できます。

java - Nutch-Hadoop:- 再クロールする URL の更新のみをクロールするにはどうすればよいですか?

2 に答える 2

Related

Reference