2

同様の顧客を見つけるために、このハンドラーに似たsolrを実装しています。

同じ住所に住んでいる名前の異なる 2 人の顧客がいます。entity_id を solr に付与し、同様の名前/アドレスを持つすべてのクライアントを取得したいと考えています。クライアントは、ボタンをクリックするだけで両方の顧客を結び付けることができます。

私はコードでこれを行うためにSolariumBundleを使用していますが、最初に生のクエリで動作するようにするだけで十分なはずです.

これは私のsolrconfig.xmlです

<?xml version="1.0" encoding="UTF-8" ?>
<config>
  <luceneMatchVersion>LUCENE_36</luceneMatchVersion>
  <directoryFactory name="DirectoryFactory" class="${solr.directoryFactory:solr.StandardDirectoryFactory}"/>

<updateHandler class="solr.DirectUpdateHandler2" />

<requestDispatcher handleSelect="true" >
    <requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" />
</requestDispatcher>

<!-- request handlers -->
<requestHandler name="standard" class="solr.StandardRequestHandler" default="true" />
<requestHandler name="/update" class="solr.XmlUpdateRequestHandler" />
<requestHandler name="/mlt" class="solr.MoreLikeThisHandler">
<lst name="defaults">
  <int name="mlt.mintf">2</int>
  <int name="mlt.mindf">1</int>
  <int name="mlt.minwl">5</int>
  <int name="mlt.maxwl">1000</int>
  <int name="mlt.maxqt">50</int>
  <int name="mlt.maxntp">50000</int>
  <bool name="mlt.boost">true</bool>
  <str name="mlt.fl">customer_data,entity_data,street</str>
  <bool name="mlt.match.include">false</bool>
</lst>
</requestHandler>

<requestHandler name="/admin/" class="org.apache.solr.handler.admin.AdminHandlers" />

<!-- config for the admin interface --> 
<admin>
    <defaultQuery>solr</defaultQuery>
</admin>
</config>

私のschema.xmlの関連部分は次のとおりです。

<fields>
    <!-- general -->
    <field name="id" type="string" indexed="true" stored="true" multiValued="false" required="true" />
    <field name="type" type="string" indexed="true" stored="true" multiValued="false" required="true"/>
    <field name="entity_id" type="string" indexed="true" stored="true" multiValued="false" required="true"/>
    <field name="sort_id" type="int" indexed="true" stored="true" multiValued="false"/>

    <field name="external_id" type="string" indexed="true" stored="true" multiValued="false"/>
    <field name="status" type="text" indexed="true" stored="true" multiValued="false"/>
    <field name="language" type="string" indexed="true" stored="true" multiValued="false"/>
    <field name="created" type="int" indexed="true" stored="true" multiValued="false"/>

    <field name="name" type="text" indexed="true" stored="true" multiValued="false"/>
    <field name="email" type="string" indexed="true" stored="true" multiValued="false"/>
    <field name="city" type="string" indexed="true" stored="false" multiValued="false"/>
    <field name="country" type="string" indexed="true" stored="false" multiValued="false"/>
    <field name="street" type="string" indexed="true" stored="false" multiValued="false"/>
    <field name="zipcode" type="string" indexed="true" stored="false" multiValued="false"/>

    <field name="entity_data" type="text_ngrm" indexed="true" stored="true" multiValued="true"/>
    <field name="customer_data" type="text_ngrm" indexed="true" stored="true" multiValued="true" termVectors="true" />

    <!-- Entity data filling -->
    <copyField source="entity_id" dest="entity_data"/>
    <copyField source="briljant_id" dest="entity_data"/>
    <copyField source="name" dest="entity_data"/>
    <copyField source="email" dest="entity_data"/>
    <!-- End entity data -->

    <!-- Customer data -->
    <copyField source="name" dest="customer_data"/>
    <copyField source="email" dest="customer_data"/>
    <copyField source="city" dest="customer_data"/>
    <copyField source="country" dest="customer_data"/>
    <copyField source="street" dest="customer_data"/>
    <copyField source="zipcode" dest="customer_data"/>
    <!-- End customer data -->
</fields>

私は現在、次のクエリを実行してhttp://localhost:8983/solr/core0/mlt?q=entity_id%3A50&wt=json&indent=true&mlt.fl:customer_dataいます: 似たような名前の顧客の結果が返されます。たとえば、customer_id:50 (私が照会しているもの) の名前が「Foo Bar」の場合、「Foo Bar」、「Bar Foo」、「John Foo」という名前の顧客が返されます。通り/国/郵便番号の類似性は機能しません。

debug:parsedquery では、さまざまな変化が見られますcustomer_data:Foo customer_data:Bar customer_data oo Bar, ...が、アドレス部分には何もありません。

クエリが次のものであることを確認するにはどうすればよいcustomer_data:Foo customer_data:Bar customer_data:teststreet customer_data:Antwerpですか?

4

1 に答える 1

1

type として定義されたフィールドはstringあまりトークン化されないため、MLT はあまり似ていないドキュメントを見つけます。

影響を受けるフィールドをクラスのタイプに変更するsolr.TextFieldと、機能するはずです。

例えば:

<!-- type definition -->
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
  <analyzer> 
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="false"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>
于 2015-12-02T12:49:10.823 に答える