私は最近、ナットの作業を開始し、それがどのように機能するかを理解しようとしています。私の知る限り、Nutch は基本的に Web のクロールに使用され、solr/Lucene はインデックスと検索に使用されます。しかし、nutch に関するドキュメントを読むと、nutch は逆索引付けも行うと書かれています。内部で Lucene を使用してインデックス作成を行っていますか、それともインデックス作成用の他のライブラリを持っていますか? インデックス作成に solr/lucene を使用している場合、nutch チュートリアルにあるように、solr を nutch で構成する必要があるのはなぜですか?
インデックス作成はデフォルトで行われますか。つまり、このコマンドを実行してクロールを開始します。インデックス作成はここで行われていますか?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
または、この場合にのみインデックス作成が行われますか。(チュートリアルによると: Solr コアが既にセットアップされていて、それにインデックスを付けたい場合は、クロール コマンドに -solr パラメーターを追加する必要があります)。
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5