1

以前の質問で、データベースを使用せずに小さなインデックス (少数のサイト) のデータを solr に保存できるという回答を得ました (データをsolr に保存することは可能ですか? )。データベースを使用せずに、完全な html ページのソース コードを solr に保存することは可能でしょうか?

4

1 に答える 1

4

Nutch with Solr は、Web サイトをクロールしてインデックスを作成する場合のソリューションです。
Nutch with Solr のチュートリアルで始めることができます。
ただし、Nutch は html タグを含む元の Solr コードを維持しません。

HTML ページをダウンロードしてカスタム ソリューションを開発する必要があります。その後、Solr Extracting Request Handlerを使用して、Solr に HTML ファイルをフィードし、html ファイルからコンテンツを抽出できます。例えばリンクで

Solr はApache Tikaを使用して、アップロードされた html ファイルからコンテンツを抽出します。

データを html テキストとしてフィードしている場合は、HTMLStripCharFilterFactoryもチェックできます。

于 2013-02-12T10:47:13.210 に答える