solr - Nutch のクロールされたデータをインデックス化するには、Solr が必要ですか?

Question

Nutch 1.4 には 1 つの Indexer/solrindex しか含まれていないことがわかりました。Nutch がクロールされたデータをインデックス化する唯一の方法は Solr ですか? そうでない場合、他の方法は何ですか？

また、Nutch 1.4 が Solr を使用してデータのインデックスを作成する理由も気になります。なぜそれ自体をしないのですか？この 2 つのプロジェクトの結合が増えるのではないでしょうか。

score 2 · Accepted Answer

Solr は内部的に lucene を使用します。2005 年以降、nutch は Lucene のサブプロジェクトとして指定されました。歴史的に、nutch は lucene インデックスを使用し、本格的な検索エンジンでした (これは ver 1.0 まででした)。クロール機能があり、ブラウザを介してデータと UI をインデックス化して、インデックス化されたデータを照会することもサポートしていました (Google 検索のようなものに似ています)。

初期の設計は lucene に基づいていたため (これは、当時多くの賞賛を得た別の apache プロジェクトであり、今でも揺るぎません)、他のインデックスフレームワークを使用できるように、nutch コードは変更または汎用化されませんでした。必要に応じて、インデックス作成フレームワークを組み込むために多くの努力が必要です。

最近のバージョン(nutch バージョン 1.3 以降) では、Nutch 開発チームは、ニーズと必要な専門知識が変化しているため、インデックス作成に関連する作業を追跡するのが難しいことに気付きました。インデックス作成の責任を Solr (Lucene ベースのインデックス作成フレームワーク) に委譲することをお勧めします。Nutch の開発者は、クローリング部分のみに焦点を当てています。つまり、nutch は本格的な検索エンジンではなく、本格的な Web クローラーです。

これがあなたの質問に答えることを願っています。詳細については、 Nutch Newsを参照してください。

最近の出来事:

最近、クローラー用の汎用ライブラリー (commons の下) を作成する取り組みが進行中です。このプロジェクトは、Web クローラーに必要なすべての機能を備え、クローラーの作成に使用できるcommons-crawlerです。今後の Nutch バージョンでは、このライブラリを依存関係として使用します。

solr - Nutch のクロールされたデータをインデックス化するには、Solr が必要ですか?

1 に答える 1

Related

Reference