search - 名の Lucene アナライザー

Question

名前の部分をそれに相当する短い名前 (たとえば、Mike と Michael、Rich と Richard、Suzie と Susan) などでトークン化する Lucene アナライザーはありますか?

レーベンシュタイン距離のあいまい一致は私が知っている解決策であり、一部の実装者はあいまい一致と soundex アルゴリズムを組み合わせているようです。確かに、誰かがこれらの短い名前のすべてをどこかに単純にリストするだけでスワイプしましたか?

編集: この質問の最も難しい部分は、同義語データをどこから取得するかです。

score 5 · Accepted Answer

特定のニックネームフィルターが存在することは認識していません。

SynonymFilterを使用すると、データソースがあればかなり簡単に生成できます。これは、ニックネームデータの適切なソースのようです。

https://code.google.com/p/nickname-and-diminutive-names-lookup/

SynonymMapctorに渡すには、次のSynonymFilterようなものを生成する必要があります (私が思うに):

SynonymMap.Builder builder = new SynonymMap.Builder(true);
builder.add(new CharsRef("Mike"), new CharsRef("Michael"), false);
builder.add(new CharsRef("Rich"), new CharsRef("Richard"), false);
builder.add(new CharsRef("Suzie"), new CharsRef("Susan"), false);
SynonymMap map = builder.build();

search - 名の Lucene アナライザー

1 に答える 1

Related

Reference