lucene - Luceneでは、誰かが「赤い納屋」を検索した場合、「赤い納屋」を含む結果をどのように返しますか？

Question

私は、誰かが2つの別々の単語（「赤い納屋」など）を検索した場合に、「赤い納屋」、「赤い納屋」、「大きな茶色の納屋の横にある赤いトラクター」を含むレコードを返すという素晴らしい仕事をしています。 "。これはすばらしいことですが、結果には「redbarn」を含むものは返されません（特に「redbarn」を検索しても、「redbarn」レコードは取得されません）。

現在、標準のアナライザーを使用していますが、必要なすべてのレコードを取得するために何を変更する必要があるかわかりません。

重要な場合は、ElasticSearch（内部ではLucene）の上でNESTクライアントを使用しています。利用可能なさまざまなアナライザーとプロパティを調査しましたが、これを行うための適切な組み合わせが見つかりませんでした。

score 3 · Accepted Answer

これを行う最良の方法は、「redbarn」を["red"、"barn"]としてトークン化するアナライザーを作成することです。Luceneはすでにドイツ語でそれを行っています。たとえば、 DictionaryCompoundWordTokenFilterを見ることができます。

score -1 · Accepted Answer

ほとんどの場合、標準のアナライザーが機能しますが、詳細なテキスト分析が必要な場合は、独自のアナライザーを作成する必要があります。

Solrに付属のWorldDelimeterFilterは、問題を解決するはずです。SolrはLuceneの上に構築されているため、solrに付属のフィルターを使用しても問題はありません。以下の例を参照してください。

public class CustomAnalyzer extends Analyzer { 
  public TokenStream tokenStream(String fieldName, Reader reader) { 
    TokenStream ts = new WhitespaceTokenizer(reader); 
    ts = new WordDelimiterFilter(ts, 1, 1, 1, 1, 1); 
    ts = new LowerCaseFilter(ts); 
    return ts; 
  } 
}

lucene - Luceneでは、誰かが「赤い納屋」を検索した場合、「赤い納屋」を含む結果をどのように返しますか？

2 に答える 2

Related

Reference