solrconfig.xmlの次の設定でSolr重複排除を使用しました
<updateRequestProcessorChain name="dedupe">
<processor class="solr.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<str name="signatureField">signature</str>
<bool name="overwriteDupes">true</bool>
<str name="fields">description</str>
<str name="signatureClass">solr.processor.TextProfileSignature</str>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
およびschema.xml
<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />
私の目的は、説明が重複しているドキュメントを見つけることです(ほぼ重複する場合は、TextProfileSignatureを使用します)。1つのエントリを保持し、他の重複するエントリを削除します。
たとえば、doc1の説明:Websol –候補者はコミュニケーションに優れている必要があり、コンピュータスキルは転居を希望している必要があります。国際コールセンターのバックオフィスには十分な空席があります。
doc2 description:Websol –候補者はコミュニケーションに優れている必要があり、コンピュータースキルは転居を希望している必要があります。国際コールセンターのバックオフィスには十分な欠員があります。
これらの2つのドキュメントから、両方ではなく1つだけを削除しますが、solr重複排除を使用すると両方のエントリが削除されます。
設定で何かが足りない場合、またはこれを達成するために他の方法に従う必要がある場合は、私に知らせてください。