0

WebサイトのHTMLページをそのままキャッシュ/インデックス付けするメカニズムが必要でした。そのため、そのページに対するリクエストが再度発生した場合は、キャッシュまたはインデックスからそのページをフェッチして送信するだけです。Solrで可能ですか?Solrは、HTML Dom全体ではなく、常にhtmlの表示(テキスト)部分を格納しているように見えるためです。高速パフォーマンスでそれを行うのに役立つ他のオープンソーステクノロジーはありますか?

4

1 に答える 1

1

この質問には多くの欠落している詳細がありますが、特にSolrに関するあなたの質問に対する答えは「はい」です。Solrは生のHTMLを問題なく保存できます。通常、stored = "true"のフィールドを使用して、元のHTMLを取得し、indexed = "true"をHTMLフィルターとともに使用して、テキストのみを検索可能にします。

于 2011-11-25T14:06:02.660 に答える