java - Solr WordDelimiterFilter + Lucene ハイライター

Question

Solr の WordDelimiterFilter からのトークンで正しく動作するように、Lucene から Highlighter クラスを取得しようとしています。90% の確率で機能しますが、一致するテキストに「1,500」などの「,」が含まれている場合、出力は正しくありません。

予想: 'これを1,500 個テスト'

観測: 'test 1 1,500 this'

Highlighter が再結合を台無しにしているか、WordDelimiterFilter がトークン化を台無しにしているかは現在わかりませんが、何かが不満です。私のpomからの関連する依存関係は次のとおりです。

org.apache.lucene lucene-core 2.9.3 jar コンパイル org.apache.lucene lucene-highlighter 2.9.3 jar コンパイル org.apache.solr solr-core 1.4.0 jar コンパイル

この問題を示す簡単な JUnit テストクラスを次に示します。

package test.lucene;


import static org.junit.Assert.assertEquals;
import static org.junit.Assert.assertTrue;


import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.util.Version;
import org.apache.solr.analysis.StandardTokenizerFactory;
import org.apache.solr.analysis.WordDelimiterFilterFactory;
import org.junit.Test;


public class HighlighterTester {
    private static final String PRE_TAG = "<b>";
    private static final String POST_TAG = "</b>";

    private static String[] highlightField( Query query, String fieldName, String text )
            throws IOException, InvalidTokenOffsetsException {
        SimpleHTMLFormatter formatter = new SimpleHTMLFormatter( PRE_TAG, POST_TAG );
        Highlighter highlighter = new Highlighter( formatter, new QueryScorer( query, fieldName ) );
        highlighter.setTextFragmenter( new SimpleFragmenter( Integer.MAX_VALUE ) );
        return highlighter.getBestFragments( getAnalyzer(), fieldName, text, 10 );
    }

    private static Analyzer getAnalyzer() {
        return new Analyzer() {
            @Override
            public TokenStream tokenStream( String fieldName, Reader reader ) {
                // Start with a StandardTokenizer
                TokenStream stream = new StandardTokenizerFactory().create( reader );

                // Chain on a WordDelimiterFilter
                WordDelimiterFilterFactory wordDelimiterFilterFactory = new WordDelimiterFilterFactory();
                HashMap<String, String> arguments = new HashMap<String, String>();
                arguments.put( "generateWordParts", "1" );
                arguments.put( "generateNumberParts", "1" );
                arguments.put( "catenateWords", "1" );
                arguments.put( "catenateNumbers", "1" );
                arguments.put( "catenateAll", "0" );
                wordDelimiterFilterFactory.init( arguments );

                return wordDelimiterFilterFactory.create( stream );
            }
        };
    }

    @Test
    public void TestHighlighter() throws ParseException, IOException, InvalidTokenOffsetsException {
        String fieldName = "text";
        String text = "test 1,500 this";
        String queryString = "1500";
        String expected = "test " + PRE_TAG + "1,500" + POST_TAG + " this";

        QueryParser parser = new QueryParser( Version.LUCENE_29, fieldName, getAnalyzer() );
        Query q = parser.parse( queryString );
        String[] observed = highlightField( q, fieldName, text );
        for ( int i = 0; i < observed.length; i++ ) {
            System.out.println( "\t" + i + ": '" + observed[i] + "'" );
        }
        if ( observed.length > 0 ) {
            System.out.println( "Expected: '" + expected + "'\n" + "Observed: '" + observed[0] + "'" );
            assertEquals( expected, observed[0] );
        }
        else {
            assertTrue( "No matches found", false );
        }
    }
}

アイデアや提案はありますか？

score 2 · Accepted Answer

さらに調査した結果、これは Lucene Highlighter コードのバグであると思われます。ここでわかるように：

public class TokenGroup {

    ...

    protected boolean isDistinct() {
        return offsetAtt.startOffset() >= endOffset;
    }

    ...

コードは、開始オフセットが前の終了オフセットより大きいかどうかを確認することによって、トークンのグループが異なるかどうかを判断しようとします。このアプローチの問題は、この問題によって示されます。トークンをステップスルーすると、次のようになります。

0-4: 'test', 'test'
5-6: '1', '1'
7-10: '500', '500'
5-10: '1500', '1,500'
11-15: 'this', 'this'

このことから、3 番目のトークンは 2 番目のトークンの終了後に開始されることがわかりますが、4 番目のトークンは 2 番目と同じ場所から開始されます。意図した結果は、トークン 2、3、および 4 をグループ化することですが、この実装では、トークン 3 は 2 とは別のものと見なされるため、2 が単独で表示され、次に 3 と 4 がグループ化され、この結果が残ります。

Expected: 'test <b>1,500</b> this'
Observed: 'test 1<b>1,500</b> this'

これが2つのパスなしで達成できるかどうかはわかりません.1つはすべてのインデックスを取得し、もう1つはそれらを結合します。また、この特定のケース以外でどのような影響があるかはわかりません。ここに何かアイデアはありますか？

編集

これが私が思いついた最終的なソースコードです。物事を正しくグループ化します。また、Lucene Highlighter の実装よりもはるかに単純に見えますが、私のアプリケーションでは、テキストの断片が強調表示されるかどうかについて yes/no のみが必要なため、さまざまなレベルのスコアリングを処理していないことは確かです。また、私が彼らの QueryScorer を使用してテキストフラグメントをスコア付けしていることも注目に値します。これは、フレーズ指向ではなく用語指向であるという弱点があります。 orは、アナライザーによって削除される可能性が最も高いため、" と綴ります。とにかく、ここに私の情報源があります：

public TextFragments<E> getTextFragments( TokenStream tokenStream,
        String text,
        Scorer scorer )
        throws IOException, InvalidTokenOffsetsException {
    OffsetAttribute offsetAtt = (OffsetAttribute) tokenStream.addAttribute( OffsetAttribute.class );
    TermAttribute termAtt = (TermAttribute) tokenStream.addAttribute( TermAttribute.class );
    TokenStream newStream = scorer.init( tokenStream );
    if ( newStream != null ) {
        tokenStream = newStream;
    }

    TokenGroups tgs = new TokenGroups();
    scorer.startFragment( null );
    while ( tokenStream.incrementToken() ) {
        tgs.add( offsetAtt.startOffset(), offsetAtt.endOffset(), scorer.getTokenScore() );
        if ( log.isTraceEnabled() ) {
            log.trace( new StringBuilder()
                    .append( scorer.getTokenScore() )
                    .append( " " )
                    .append( offsetAtt.startOffset() )
                    .append( "-" )
                    .append( offsetAtt.endOffset() )
                    .append( ": '" )
                    .append( termAtt.term() )
                    .append( "', '" )
                    .append( text.substring( offsetAtt.startOffset(), offsetAtt.endOffset() ) )
                    .append( "'" )
                    .toString() );
        }
    }

    return tgs.fragment( text );
}

private class TokenGroup {
    private int startIndex;
    private int endIndex;
    private float score;

    public TokenGroup( int startIndex, int endIndex, float score ) {
        this.startIndex = startIndex;
        this.endIndex = endIndex;
        this.score = score;
    }
}

private class TokenGroups implements Iterable<TokenGroup> {
    private List<TokenGroup> tgs;

    public TokenGroups() {
        tgs = new ArrayList<TokenGroup>();
    }

    public void add( int startIndex, int endIndex, float score ) {
        add( new TokenGroup( startIndex, endIndex, score ) );
    }

    public void add( TokenGroup tg ) {
        for ( int i = tgs.size() - 1; i >= 0; i-- ) {
            if ( tg.startIndex < tgs.get( i ).endIndex ) {
                tg = merge( tg, tgs.remove( i ) );
            }
            else {
                break;
            }
        }
        tgs.add( tg );
    }

    private TokenGroup merge( TokenGroup tg1, TokenGroup tg2 ) {
        return new TokenGroup( Math.min( tg1.startIndex, tg2.startIndex ),
                Math.max( tg1.endIndex, tg2.endIndex ),
                Math.max( tg1.score, tg2.score ) );
    }

    private TextFragments<E> fragment( String text ) {
        TextFragments<E> fragments = new TextFragments<E>();

        int lastEndIndex = 0;
        for ( TokenGroup tg : this ) {
            if ( tg.startIndex > lastEndIndex ) {
                fragments.add( text.substring( lastEndIndex, tg.startIndex ), textModeNormal );
            }
            fragments.add( 
                    text.substring( tg.startIndex, tg.endIndex ),
                    tg.score > 0 ? textModeHighlighted : textModeNormal );
            lastEndIndex = tg.endIndex;
        }

        if ( lastEndIndex < ( text.length() - 1 ) ) {
            fragments.add( text.substring( lastEndIndex ), textModeNormal );
        }

        return fragments;
    }

    @Override
    public Iterator<TokenGroup> iterator() {
        return tgs.iterator();
    }
}

score 0 · Accepted Answer

考えられる原因は次のとおりです。蛍光ペンは、検索に使用されるものと同じアナライザーを使用する必要があります。IIUC、あなたのコードは、クエリの解析に特化したアナライザーを使用しているにもかかわらず、強調表示にデフォルトのアナライザーを使用しています。特定の TokenStream で動作するように Fragmenter を変更する必要があると思います。

java - Solr WordDelimiterFilter + Lucene ハイライター

2 に答える 2

Related

Reference