現在、Solr で Nutch を使用する必要がある場所に関する情報を収集しています (ドメイン - 垂直 Web 検索)。
提案していただけますか?
Nutch は、Web クローラーと検索エンジンを構築するためのフレームワークです。Nutch は、Web ページの収集から転置インデックスの作成まで、すべてのプロセスを実行できます。これらのインデックスを Solr にプッシュすることもできます。
Solr は主に、ファセット検索やその他多くの優れた機能をサポートする検索エンジンです。しかし、Solr はデータをフェッチしないため、データをフィードする必要があります。
したがって、この 2 つのどちらかを選択するために最初に確認しなければならないことは、インデックスを作成するデータが (XML、CMS、またはデータベースで) 既に利用可能であるかどうかということです。その場合は、おそらく Solr を使用して、そのデータをフィードする必要があります。一方、Web からデータを取得する必要がある場合は、おそらく Nutch の方が適しています。