apache - ルセン入りアパッチナッツ

Question

Lucene にレガシーコードがあり、新しい要件として、クロールに Apache Nutch を使用する必要があります。これは、Apache Nutch がコンテンツをクロールし、既存の Lucene アナライザーがインデックスを生成する必要があることを意味します。

私の問題は、Apache Nutch が既にコンテンツを生成できないインデックスを生成していることです。Nutch インデックスは使用したくありません。

別のクローラーを使用することをお勧めしますか、それともこの目的のために Apache Nutch を使用することはまだ可能ですか?

score 1 · Accepted Answer

Nutch: これは、Web ページまたはファイル共有をクロールし、コンテンツを取得して解析する Web クローラーまたはファイルクローラーです。Apache Solr と統合するように設計されているため、多くの機能を備えています。最も便利なのは、生成したコンテンツを Solr に渡すことですが、Nutch はインデックス作成を行いません。

Solr: Solr は、Lucene を使用してデータのインデックスを作成する検索サーバーです。Nutch が (http 経由で) ドキュメントを渡すと、Solr はドキュメントにインデックスを付け、Lucene インデックスを保存します。XML 形式で結果を返す Solr にクエリを実行できる優れた検索インターフェイスがあります。

Solr と Nutch を使用 - これらは連携するように設計されています

Solr 4のセットアップとNutchのセットアップを確認してください

score 0 · Accepted Answer

索引付けの目的でsolrを使用できます。Solr は、Lucene Java 検索ライブラリに基づくオープンソースの検索サーバーであり、Nutch で簡単に構成できます。

指示：

bin/nutch クロール URL -solr http://solr.server:8983/solr/ -depth depth -topN topN

指定された深さまでシード URL リストをクロールし、指定された solr サーバーにインデックスを付けます。Solr は内部的に lucene インデックスを作成します。

参照: http://wiki.apache.org/nutch/NutchTutorial

apache - ルセン入りアパッチナッツ

2 に答える 2

Related

Reference