10

私は最近、ナットの作業を開始し、それがどのように機能するかを理解しようとしています。私の知る限り、Nutch は基本的に Web のクロールに使用され、solr/Lucene はインデックスと検索に使用されます。しかし、nutch に関するドキュメントを読むと、nutch は逆索引付けも行うと書かれています。内部で Lucene を使用してインデックス作成を行っていますか、それともインデックス作成用の他のライブラリを持っていますか? インデックス作成に solr/lucene を使用している場合、nutch チュートリアルにあるように、solr を nutch で構成する必要があるのはなぜですか?

インデックス作成はデフォルトで行われますか。つまり、このコマンドを実行してクロールを開始します。インデックス作成はここで行われていますか?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

または、この場合にのみインデックス作成が行われますか。(チュートリアルによると: Solr コアが既にセットアップされていて、それにインデックスを付けたい場合は、クロール コマンドに -solr パラメーターを追加する必要があります)。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
4

2 に答える 2

5

ここを見ておくと便利かもしれません。最初のコマンドを実行すると:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

つまり、nutch は以下で構成される独自の内部データを作成します。

  • クロールデータベース
  • リンクデータベース
  • セグメントのセット

これらは、クロール コマンドの実行中に作成される次のディレクトリで確認できます。

  • クロール/crawldb
  • クロール/linkdb
  • クロール/セグメント

そのデータは、nutch がクロールしたデータを保存するある種のデータベースと考えることができます。それは逆インデックスとは何の関係もありません。

クロール プロセスの後、Solr インスタンスでデータのインデックスを作成できます。質問の2番目のコマンドである単一のコマンドを実行して、クロールしてからインデックスを作成できます。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

それ以外の場合は、Solr へのインデックス作成に固有の、crawl コマンドの後に 2 番目のコマンドを実行できますが、crawldb、linkdb、およびセグメントのパスを指定する必要があります。

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
于 2012-06-01T09:38:51.783 に答える
4

古いバージョンの Nutch と関連するオンライン ドキュメントに混乱しているかもしれません。当初は独自のインデックスを作成し、独自の Web 検索インターフェイスを備えていました。Solr の使用は、追加の構成と操作を必要とするオプションになりました。1.3 からインデックス作成とサーバー部分が削除され、Nutch が Solr を使用することが想定されています。

于 2012-10-31T04:10:30.700 に答える