4

同様の質問がすでに出されていることは承知していますが、探しているものに合った回答が見つかりません。

基本的に、私はフレーズを検索し、その正確なフレーズのみを含み、部分一致を含まない一致のみを返したいと考えています。

たとえば、"This is a phrase" を含むドキュメントは、"This is" で検索してもヒットしないはずです。

この例を取る: Lucene を使用した正確なフレーズ検索?

「foo bar」は部分一致にすぎないため、ヒットを返すべきではありません。私が探している完全な一致は、「foo bar baz」です。

これがコードです。これを上記のリンクに投稿した WhiteFang34 の功績は次のとおりです (私は単純に c# に変換しました)。

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using Lucene.Net.QueryParsers;
using Lucene.Net.Search;
using Lucene.Net.Documents;
using Lucene.Net.Analysis.Standard;
using Lucene.Net.Analysis;
using Lucene.Net.Store;
using Lucene.Net.Index;

namespace LuceneStatic
{
    public static class LuceneStatic
    {
        public static void LucenePhraseQuery()
        {
            // setup Lucene to use an in-memory index
            Lucene.Net.Store.Directory directory = new RAMDirectory();
            Analyzer analyzer = new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_29);
            var mlf = Lucene.Net.Index.IndexWriter.MaxFieldLength.UNLIMITED;
            IndexWriter writer = new IndexWriter(directory, analyzer, true, mlf);

            // index a few documents
            writer.AddDocument(createDocument("1", "foo bar baz"));
            writer.AddDocument(createDocument("2", "red green blue"));
            writer.AddDocument(createDocument("3", "test foo bar test"));
            writer.Close();

            // search for documents that have "foo bar" in them
            String sentence = "foo bar";
            IndexSearcher searcher = new IndexSearcher(directory, true);
            PhraseQuery query = new PhraseQuery();
            string[] words = sentence.Split(' ');
            foreach (var word in words)
            {
                query.Add(new Term("contents", word));
            }

            // display search results
            List<string> results = new List<string>();
            TopDocs topDocs = searcher.Search(query, 10);
            foreach (ScoreDoc scoreDoc in topDocs.ScoreDocs)
            {
                Document doc = searcher.Doc(scoreDoc.doc);
                results.Add(doc.Get("contents"));
            }
        }

        private static Document createDocument(string id, string content)
        {
            Document doc = new Document();
            doc.Add(new Field("id", id, Field.Store.YES, Field.Index.NOT_ANALYZED));
            doc.Add(new Field("contents", content, Field.Store.YES, Field.Index.ANALYZED,
                    Field.TermVector.WITH_POSITIONS_OFFSETS));
            return doc;
        }
    }
}

差分アナライザーとさまざまなアプローチを使用してこれを試してみましたが、必要な結果が得られません。「foo bar baz」という完全なフレーズに一致する必要がありますが、「foo bar」ではヒットが返されません。

4

1 に答える 1

4

Field.Index.NOT_ANALYZEDフィールドを作成するときに、パラメーターを使用してデータにインデックスを付けます。これにより、値全体が単一の として索引付けされますTerm

次に、単純な TermQuery を使用して検索できます。

https://lucene.apache.org/core/old_versioned_docs/versions/3_0_1/api/all/org/apache/lucene/document/Field.Index.html#NOT_ANALYZED

于 2012-10-13T20:14:04.023 に答える