2

mysql と統合された Nutch 2.1 を使用しています。私は 2 つのサイトをクロールしましたが、Nutch はそれらを正常にクロールし、データを Mysql に保存しました。検索には Solr 4.0.0 を使用しています。

今私の問題は、trailer.apple.com や他のサイトのようなサイトを再クロールしようとすると、最後にクロールされた URL が常にクロールされることです。私も、最後にクロールした URL を seed.txt ファイルから削除し、新しい URL を入力しました。しかし、Nutch は新しい URL をクロールしていません。

実際に私が間違っていることを誰かに教えてもらえますか。

また、動画や映画サイトのクロールに役立つ Nutch プラグインを教えてください。

どんな助けでも本当にかなりの価値があります。

4

3 に答える 3

2

私も同じ問題を抱えてる。Nutchは、seed.txtに存在しない場合でも、古いURLのみを再クロールします。

初めてnutchを開始するときは、次のことを行います。

  • /root/Desktop/apache-nutch 2.1 / runtime / local / urls / seed.txtにドメイン「www.domain01.com」を追加します(引用符なし)

  • /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtに、新しい行を追加します。

    #他のものを受け入れる
    ^ http://([a-z0-9] *。)* www.domain01.com/sport/

  • /root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtに、新しい行を追加します。

    #他のものを受け入れる
    ^ http://([a-z0-9] *。)* www.domain01.com/sport/

...そしてすべてが大丈夫だった。

次に、次の変更を行いました。

  • /root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txtからwww.domain01.comを削除し、www.domain02.comとwww.domain03.comの2つの新しいドメインを追加します。

  • /root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。

    #他のものを受け入れる
       ^ http://([a-z0-9] *。)www.domain02.com/sport/
       ^ http://([a-z0-9]
    。)* www.domain03.com /スポーツ/

  • /root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。

    #他のものを受け入れる
       ^ http://([a-z0-9] *。)www.domain02.com/sport/
       ^ http://([a-z0-9]
    。)* www.domain03.com /スポーツ/

次に、次のコマンドを実行します。

updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3

そして、nutchはまだwww.domain01.comをクロールします

どうしてか分かりません ?

Linux Debian 6.0.5(x64)でNutch2.1を使用しています。また、LinuxはWindows 7(x64)の仮想マシンで起動されます。

于 2013-02-04T14:57:40.603 に答える
1

この投稿は少し古くなっていますが、ほとんどの部分でまだ有効です。最も。Nutch は適応アルゴリズムを使用して再クロールをスケジュールするため、ページが非常に静的な場合は頻繁に再クロールするべきではありません。nutch-site.xml を使用して、再クロールする頻度をオーバーライドできます。また、seed.txt ファイルはシード リストであると想定されています。一度 URL を挿入すると、Nutch はそれを使用しなくなります (手動で再度挿入しない限り)。

特定の場所を指すか、特定のドメイン/ページなどを除外する場合は、regex-urlfilter.txt が役立つ可能性がある別の構成です。

乾杯。

于 2012-12-24T02:36:03.630 に答える