0

Solr の SpellCheckComponent に苦労しています (solr 4.4 および 4.5 でテスト済み)。次のように定義されたフィールドタイプがあります。

<fieldtype name="termSuggest" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory" />
    <filter class="solr.LowerCaseFilterFactory" />
    <filter class="solr.PatternReplaceFilterFactory" pattern="(^[^A-Za-z0-9ÄÖÜßäöü]*|[^A-Za-z0-9ÄÖÜßäöü]*$)"
        replacement="" replace="all" />
    <filter class="solr.LengthFilterFactory" min="2" max="60" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" />
    <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true" outputUnigramsIfNoShingles="true" 
        tokenSeparator=" "/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
<analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory" />
    <filter class="solr.LowerCaseFilterFactory" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" />
    <filter class="solr.ShingleFilterFactory" maxShingleSize="99" outputUnigrams="false" outputUnigramsIfNoShingles="true" 
        tokenSeparator=" "/> 
</analyzer>
</fieldtype>

対応するフィールドを solr admin アナライザーで調査すると、フィールドがインデックス モードとクエリ モードで正しく分析されていることがわかります。特に、それは小文字です。

ただし、このフィールドを SpellCheckerComponent で使用すると、用語が小文字で提供されている場合にのみ候補が表示されます (たとえば、「bautrokner」は機能し、「Bautrokner」は機能しません)。コンポーネントとリクエストハンドラーは、solr wiki で提供されているように定義されています (スペル修正に帯状疱疹が必要ないことはわかっていますが、自動提案用のフィールドも使用しています - まったく同じ問題があります):

<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
<!-- Multiple "Spell Checkers" can be declared and used by this component -->

<!-- a spellchecker built from a field of the main index -->
<lst name="spellchecker">
    <str name="name">default</str>
    <str name="field">_termsuggest</str>
    <str name="classname">solr.DirectSolrSpellChecker</str>
    <!-- the spellcheck distance measure used, the default is the internal levenshtein -->
    <str name="distanceMeasure">internal</str>
    <!-- minimum accuracy needed to be considered a valid spellcheck suggestion -->
    <float name="accuracy">0.2</float>
    <!-- the maximum #edits we consider when enumerating terms: can be 1 or 2 -->
    <int name="maxEdits">2</int>
    <!-- the minimum shared prefix when enumerating terms -->
    <int name="minPrefix">1</int>
    <!-- maximum number of inspections per result. -->
    <int name="maxInspections">5</int>
    <!-- minimum length of a query term to be considered for correction -->
    <int name="minQueryLength">4</int>
    <!-- maximum threshold of documents a query term can appear to be considered for correction -->
    <!--<float name="maxQueryFrequency">0.01</float>-->
    <!-- uncomment this to require suggestions to occur in 1% of the documents <float name="thresholdTokenFrequency">.01</float> -->
</lst>
</searchComponent>

<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
    <str name="df">_termsuggest</str>
    <str name="spellcheck.dictionary">default</str>
    <str name="spellcheck">on</str>
    <str name="spellcheck.extendedResults">true</str>
    <str name="spellcheck.count">10</str>
    <str name="spellcheck.alternativeTermCount">5</str>
    <str name="spellcheck.maxResultsForSuggest">5</str>
    <str name="spellcheck.collate">true</str>
    <str name="spellcheck.collateExtendedResults">true</str>
    <str name="spellcheck.maxCollationTries">10</str>
    <str name="spellcheck.maxCollations">5</str>
</lst>
<arr name="last-components">
    <str>spellcheck</str>
</arr>
</requestHandler>

同様の問題を数時間検索しましたが、問題のヒントが見つかりません。クエリ アナライザーのために、クエリ用語は小文字にする必要があると思います。しかし、そうではないようです。

マティアス

4

1 に答える 1

0

問題は解決しました: queryAnalyzerFieldType を追加し忘れました:

<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
    <!-- Multiple "Spell Checkers" can be declared and used by this component -->
    <str name="queryAnalyzerFieldType">termSuggest</str>
...

queryAnalyzerFieldType が指定されていない場合、単純な WhiteSpaceAnalyzer が使用されます ( https://issues.apache.org/jira/browse/SOLR-5111 )。

マティアス

于 2013-10-08T06:24:01.320 に答える