java - Nutch API アドバイス

Question

私は、いくつかの作業を行うために成熟したクローラーが必要なプロジェクトに取り組んでおり、この目的のために Nutch を評価しています。現在のニーズは比較的単純です。データをディスクに保存できるクローラーと、サイトの更新されたリソースのみを再クロールして、既にクロールされた部分をスキップできるクローラーが必要です。コマンドライン経由ではなく、Java で直接 Nutch コードを操作した経験のある人はいますか? 簡単に始めたいと思います。クローラー（または同様のもの）を作成し、最小限の構成で開始します。派手なことは何もありません。これの例、または私が見るべきリソースはありますか? Nutch のドキュメントを読んでいますが、そのほとんどはコマンドライン、検索、その他に関するものです。インデックスや検索をしなくても、Nutch クローリングモジュールはどれくらい使いやすいですか? どんな助けでも大歓迎です。ありがとう。

score 1 · Accepted Answer

ナッチは、おそらくこれまでに練習したものとは大きく異なります。これはフレームワークのようなものであるため、クエリと検索のフロントを備えているだけでなく、solrはネイティブのNutch検索フロントエンドよりも強力に見えます。また、クロール部分とインデックス作成（Luceneインデックスへの）もあります。

クロールを検索以外の目的で使用する場合は、独自のプログラムを開発し、HadoopおよびMapReduceプログラミングに精通している必要があります。

クロールで何をしたいのかわからないが、Nutchが解決策ではないようだ

java - Nutch API アドバイス

1 に答える 1

Related

Reference