solr - wget html ページを Solr に投稿する

Question

wgetでダウンロードするときに、HTML WebページをSolrインデックスに投稿するにはどうすればよいですか? 次の例を変更して、同時にインデックスが作成されるようにするにはどうすればよいですか? wget -P /var/myserver/archive http://www.somesite/products.html

Solr のドキュメントで明らかな例を見つけることができません。

score 0 · Accepted Answer

オープンソースのウェブクローラーであるApache Nutchを確認できます。
Nutch にベースページを提供すると、ページとその中のリンクをインデックス化するのに役立ちます。
Nutch は Solr と統合されているため、Solr によってページがインデックス化され、検索可能になります。

ただし、Spider 機能を備えていないページが数ページだけの場合は、html ページをダウンロードして、クライアントコードを介して solr にフィードすることができます。
Solr には HTML フィルターがあり、このページからコンテンツを抽出し、テキストとしてインデックス化するのに役立ちます。

solr - wget html ページを Solr に投稿する

1 に答える 1

Related

Reference