0

wgetでダウンロードするときに、HTML WebページをSolrインデックスに投稿するにはどうすればよいですか? 次の例を変更して、同時にインデックスが作成されるようにするにはどうすればよいですか? wget -P /var/myserver/archive http://www.somesite/products.html

Solr のドキュメントで明らかな例を見つけることができません。

4

1 に答える 1

0

オープンソースのウェブクローラーであるApache Nutchを確認できます。
Nutch にベース ページを提供すると、ページとその中のリンクをインデックス化するのに役立ちます。
Nutch は Solr と統合されているため、Solr によってページがインデックス化され、検索可能になります。

ただし、Spider 機能を備えていないページが数ページだけの場合は、html ページをダウンロードして、クライアント コードを介して solr にフィードすることができます。
Solr には HTML フィルターがあり、このページからコンテンツを抽出し、テキストとしてインデックス化するのに役立ちます。

于 2012-12-10T06:24:30.893 に答える