0

SOLRを使用してHTMLファイルのセットにインデックスを付けようとしています。基本的な考え方は、開発したWebサイトにサイト検索機能を実装することです。LuceneとSOLRは非常に新しく、サイトで利用可能ないくつかのサンプルを試し、それを使用していくつかのドキュメントにインデックスを付けました。しかし、物事を行うための最良の方法について結論を出すことはできません。DataImportHandlerの使用を提案する人もいれば、ExtractingRequestHandlerを使用しているところもあります。私の側からの簡単な試みは、ExtractingRequestHandlerを使用することでした。lsoたとえば、ファイルのリストを更新する必要があります。たとえば、一部のHTMLは将来削除され、一部は追加される可能性があります。Plは、アプローチを選択する際に考慮すべき要素を提案します。

乾杯!!

4

1 に答える 1

0

Nutchを使用して HTML ファイルをクロールし、Solr にインデックス付けすることをお勧めします。サイトへのファイルの削除/追加を追跡するためのサポートが組み込まれています。

また、Nutch Wikiで開始方法のチュートリアルを確認してください。

于 2013-02-22T13:38:26.993 に答える