java - solrの完全なhtmlページのソースコードに保存することは可能ですか?

Question

以前の質問で、データベースを使用せずに小さなインデックス (少数のサイト) のデータを solr に保存できるという回答を得ました (データをsolr に保存することは可能ですか? )。データベースを使用せずに、完全な html ページのソースコードを solr に保存することは可能でしょうか?

score 4 · Accepted Answer

Nutch with Solr は、Web サイトをクロールしてインデックスを作成する場合のソリューションです。
Nutch with Solr のチュートリアルで始めることができます。
ただし、Nutch は html タグを含む元の Solr コードを維持しません。

HTML ページをダウンロードしてカスタムソリューションを開発する必要があります。その後、Solr Extracting Request Handlerを使用して、Solr に HTML ファイルをフィードし、html ファイルからコンテンツを抽出できます。例えばリンクで

データを html テキストとしてフィードしている場合は、HTMLStripCharFilterFactoryもチェックできます。

1 に答える 1