私は、スウェーデン語、ドイツ語、フィンランド語などの凝集言語で書かれたコンテンツを含む多数のサイトに対して、Elasticsearch に基づく検索サービスを作成しています。
Elasticsearch がデフォルトで言語アナライザーを提供していることは知っていますが、いくつかのテストの後、それらのサポートはせいぜいずさんなものであることがわかりました。
私がこれまでに得たものは次のとおりです。
{
"settings":{
"analysis":{
"filter":{
"swedish_stop":{
"type": "stop",
"stopwords": "_swedish_"
},
"swedish_stemmer":{
"type":"stemmer",
"language":"swedish"
},
"swedish_words":{
"type":"dictionary_decompounder",
"word_list":["very", "long", "list", "of", "words", "almost", "13", "MB"]
}
},
"analyzer":{
"custom_swedish":{
"tokenizer": "standard",
"filter":[
"lowercase",
"swedish_stop",
"swedish_stemmer",
"swedish_words"
],
"char_filter":[
"html_strip"
]
}
}
}
}
}
手がかりはありますか?