Apache Nutch を使用してサイトをクロールし、Apache Solr にインデックスを付けました。solr を使用してサイト内の と html タグの間の文字列を検索する方法がわかりません。ありがとう
質問する
316 次
1 に答える
0
最も簡単な方法は、HTML からデータを抽出し、抽出したデータにインデックスを付けることです。HTMLStripCharFilterFactoryを使用して、入力ストリームから HTML を取り除くことができます。
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
于 2012-08-11T08:16:45.530 に答える