6

私は、いくつかの作業を行うために成熟したクローラーが必要なプロジェクトに取り組んでおり、この目的のために Nutch を評価しています。現在のニーズは比較的単純です。データをディスクに保存できるクローラーと、サイトの更新されたリソースのみを再クロールして、既にクロールされた部分をスキップできるクローラーが必要です。コマンドライン経由ではなく、Java で直接 Nutch コードを操作した経験のある人はいますか? 簡単に始めたいと思います。クローラー(または同様のもの)を作成し、最小限の構成で開始します。派手なことは何もありません。これの例、または私が見るべきリソースはありますか? Nutch のドキュメントを読んでいますが、そのほとんどはコマンド ライン、検索、その他に関するものです。インデックスや検索をしなくても、Nutch クローリング モジュールはどれくらい使いやすいですか? どんな助けでも大歓迎です。ありがとう。

4

1 に答える 1

1

ナッチは、おそらくこれまでに練習したものとは大きく異なります。これはフレームワークのようなものであるため、クエリと検索のフロントを備えているだけでなく、solrはネイティブのNutch検索フロントエンドよりも強力に見えます。また、クロール部分とインデックス作成(Luceneインデックスへの)もあります。

クロールを検索以外の目的で使用する場合は、独自のプログラムを開発し、HadoopおよびMapReduceプログラミングに精通している必要があります。

クロールで何をしたいのかわからないが、Nutchが解決策ではないようだ

于 2010-12-03T13:47:54.417 に答える