solr - SOLRを使用したHTMLファイルの索引付け

Question

SOLRを使用してHTMLファイルのセットにインデックスを付けようとしています。基本的な考え方は、開発したWebサイトにサイト検索機能を実装することです。LuceneとSOLRは非常に新しく、サイトで利用可能ないくつかのサンプルを試し、それを使用していくつかのドキュメントにインデックスを付けました。しかし、物事を行うための最良の方法について結論を出すことはできません。DataImportHandlerの使用を提案する人もいれば、ExtractingRequestHandlerを使用しているところもあります。私の側からの簡単な試みは、ExtractingRequestHandlerを使用することでした。lsoたとえば、ファイルのリストを更新する必要があります。たとえば、一部のHTMLは将来削除され、一部は追加される可能性があります。Plは、アプローチを選択する際に考慮すべき要素を提案します。

乾杯！！

score 0 · Accepted Answer

Nutchを使用して HTML ファイルをクロールし、Solr にインデックス付けすることをお勧めします。サイトへのファイルの削除/追加を追跡するためのサポートが組み込まれています。

また、Nutch Wikiで開始方法のチュートリアルを確認してください。

solr - SOLRを使用したHTMLファイルの索引付け

1 に答える 1

Related

Reference