solr - Nutch と Solr のインデックス作成

Question

私は最近、ナットの作業を開始し、それがどのように機能するかを理解しようとしています。私の知る限り、Nutch は基本的に Web のクロールに使用され、solr/Lucene はインデックスと検索に使用されます。しかし、nutch に関するドキュメントを読むと、nutch は逆索引付けも行うと書かれています。内部で Lucene を使用してインデックス作成を行っていますか、それともインデックス作成用の他のライブラリを持っていますか? インデックス作成に solr/lucene を使用している場合、nutch チュートリアルにあるように、solr を nutch で構成する必要があるのはなぜですか?

インデックス作成はデフォルトで行われますか。つまり、このコマンドを実行してクロールを開始します。インデックス作成はここで行われていますか?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

または、この場合にのみインデックス作成が行われますか。(チュートリアルによると: Solr コアが既にセットアップされていて、それにインデックスを付けたい場合は、クロールコマンドに -solr パラメーターを追加する必要があります)。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

score 5 · Accepted Answer

ここを見ておくと便利かもしれません。最初のコマンドを実行すると:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

つまり、nutch は以下で構成される独自の内部データを作成します。

クロールデータベース
リンクデータベース
セグメントのセット

これらは、クロールコマンドの実行中に作成される次のディレクトリで確認できます。

クロール/crawldb
クロール/linkdb
クロール/セグメント

そのデータは、nutch がクロールしたデータを保存するある種のデータベースと考えることができます。それは逆インデックスとは何の関係もありません。

クロールプロセスの後、Solr インスタンスでデータのインデックスを作成できます。質問の2番目のコマンドである単一のコマンドを実行して、クロールしてからインデックスを作成できます。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

それ以外の場合は、Solr へのインデックス作成に固有の、crawl コマンドの後に 2 番目のコマンドを実行できますが、crawldb、linkdb、およびセグメントのパスを指定する必要があります。

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*

score 4 · Accepted Answer

古いバージョンの Nutch と関連するオンラインドキュメントに混乱しているかもしれません。当初は独自のインデックスを作成し、独自の Web 検索インターフェイスを備えていました。Solr の使用は、追加の構成と操作を必要とするオプションになりました。1.3 からインデックス作成とサーバー部分が削除され、Nutch が Solr を使用することが想定されています。

solr - Nutch と Solr のインデックス作成

2 に答える 2

Related

Reference