1

solrconfig.xmlの次の設定でSolr重複排除を使用しました

<updateRequestProcessorChain name="dedupe">
   <processor class="solr.processor.SignatureUpdateProcessorFactory">
     <bool name="enabled">true</bool>
     <str name="signatureField">signature</str>
     <bool name="overwriteDupes">true</bool>
     <str name="fields">description</str>
     <str name="signatureClass">solr.processor.TextProfileSignature</str>
   </processor>
   <processor class="solr.LogUpdateProcessorFactory" />
   <processor class="solr.RunUpdateProcessorFactory" />
 </updateRequestProcessorChain>

およびschema.xml

<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />

私の目的は、説明が重複しているドキュメントを見つけることです(ほぼ重複する場合は、TextProfileSignatureを使用します)。1つのエントリを保持し、他の重複するエントリを削除します。

たとえば、doc1の説明:Websol –候補者はコミュニケーションに優れている必要があり、コンピュータスキルは転居を希望している必要があります。国際コールセンターのバックオフィスには十分な空席があります。

doc2 description:Websol –候補者はコミュニケーションに優れている必要があり、コンピュータースキルは転居を希望している必要があります。国際コールセンターのバックオフィスには十分な欠員があります。

これらの2つのドキュメントから、両方ではなく1つだけを削除しますが、solr重複排除を使用すると両方のエントリが削除されます。

設定で何かが足りない場合、またはこれを達成するために他の方法に従う必要がある場合は、私に知らせてください。

4

1 に答える 1

1

既知の問題に苦しんでいる可能性があります

于 2012-08-04T12:35:18.060 に答える