1

Apache Nutch を使用してサイトをクロールし、Apache Solr にインデックスを付けました。solr を使用してサイト内の と html タグの間の文字列を検索する方法がわかりません。ありがとう

4

1 に答える 1

0

最も簡単な方法は、HTML からデータを抽出し、抽出したデータにインデックスを付けることです。HTMLStripCharFilterFactoryを使用して、入力ストリームから HTML を取り除くことができます。

<analyzer>
  <charFilter class="solr.HTMLStripCharFilterFactory"/>
  <tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
于 2012-08-11T08:16:45.530 に答える