nutch - ナットを再クロールする方法

Question

mysql と統合された Nutch 2.1 を使用しています。私は 2 つのサイトをクロールしましたが、Nutch はそれらを正常にクロールし、データを Mysql に保存しました。検索には Solr 4.0.0 を使用しています。

今私の問題は、trailer.apple.com や他のサイトのようなサイトを再クロールしようとすると、最後にクロールされた URL が常にクロールされることです。私も、最後にクロールした URL を seed.txt ファイルから削除し、新しい URL を入力しました。しかし、Nutch は新しい URL をクロールしていません。

実際に私が間違っていることを誰かに教えてもらえますか。

また、動画や映画サイトのクロールに役立つ Nutch プラグインを教えてください。

どんな助けでも本当にかなりの価値があります。

score 2 · Accepted Answer

私も同じ問題を抱えてる。Nutchは、seed.txtに存在しない場合でも、古いURLのみを再クロールします。

初めてnutchを開始するときは、次のことを行います。

/root/Desktop/apache-nutch 2.1 / runtime / local / urls / seed.txtにドメイン「www.domain01.com」を追加します（引用符なし）
/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtに、新しい行を追加します。

＃他のものを受け入れる
^ http：//（[a-z0-9] *。）* www.domain01.com/sport/
/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtに、新しい行を追加します。

＃他のものを受け入れる
^ http：//（[a-z0-9] *。）* www.domain01.com/sport/

...そしてすべてが大丈夫だった。

次に、次の変更を行いました。

/root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txtからwww.domain01.comを削除し、www.domain02.comとwww.domain03.comの2つの新しいドメインを追加します。
/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。

＃他のものを受け入れる
^ http：//（[a-z0-9] *。）www.domain02.com/sport/
^ http：//（[a-z0-9]。）* www.domain03.com /スポーツ/
/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。

＃他のものを受け入れる
^ http：//（[a-z0-9] *。）www.domain02.com/sport/
^ http：//（[a-z0-9]。）* www.domain03.com /スポーツ/

次に、次のコマンドを実行します。

updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3

そして、nutchはまだwww.domain01.comをクロールします

どうしてか分かりません？

Linux Debian 6.0.5（x64）でNutch2.1を使用しています。また、LinuxはWindows 7（x64）の仮想マシンで起動されます。

score 1 · Accepted Answer

この投稿は少し古くなっていますが、ほとんどの部分でまだ有効です。最も。Nutch は適応アルゴリズムを使用して再クロールをスケジュールするため、ページが非常に静的な場合は頻繁に再クロールするべきではありません。nutch-site.xml を使用して、再クロールする頻度をオーバーライドできます。また、seed.txt ファイルはシードリストであると想定されています。一度 URL を挿入すると、Nutch はそれを使用しなくなります (手動で再度挿入しない限り)。

特定の場所を指すか、特定のドメイン/ページなどを除外する場合は、regex-urlfilter.txt が役立つ可能性がある別の構成です。

乾杯。

nutch - ナットを再クロールする方法

3 に答える 3

Related

Reference