wgetでダウンロードするときに、HTML WebページをSolrインデックスに投稿するにはどうすればよいですか? 次の例を変更して、同時にインデックスが作成されるようにするにはどうすればよいですか? wget -P /var/myserver/archive http://www.somesite/products.html
Solr のドキュメントで明らかな例を見つけることができません。
wgetでダウンロードするときに、HTML WebページをSolrインデックスに投稿するにはどうすればよいですか? 次の例を変更して、同時にインデックスが作成されるようにするにはどうすればよいですか? wget -P /var/myserver/archive http://www.somesite/products.html
Solr のドキュメントで明らかな例を見つけることができません。
オープンソースのウェブクローラーであるApache Nutchを確認できます。
Nutch にベース ページを提供すると、ページとその中のリンクをインデックス化するのに役立ちます。
Nutch は Solr と統合されているため、Solr によってページがインデックス化され、検索可能になります。
ただし、Spider 機能を備えていないページが数ページだけの場合は、html ページをダウンロードして、クライアント コードを介して solr にフィードすることができます。
Solr には HTML フィルターがあり、このページからコンテンツを抽出し、テキストとしてインデックス化するのに役立ちます。