約 100.000 エントリのビデオゲーム用の検索エンジンを作成しており、それらを Elasticsearch でインデックス付けしたいと考えています。
いくつかのアナライザ構成をいじってみましたが、どの構成が emmence 製品に最適かよくわかりません。
私の現在のセットアップは次のようになります。
:filter => {
:en_stop_filter => {
"type" => "stop",
"stopwords" => ["_english_"]
},
:en_stem_filter => {
"type" => "stemmer",
"name" => "minimal_english"
}
},
:analyzer => {
:ja_analyzer => {
"type" => "custom",
"tokenizer" => "kuromoji",
"filter" => ["icu_folding", "icu_normalizer"],
"char_filter" => ["html_strip"],
"mode" => "search"
},
:en_analyzer => {
"type" => "custom",
"tokenizer" => "icu_tokenizer",
"filter" => ["icu_folding", "icu_normalizer", "en_stop_filter", "en_stem_filter"],
"char_filter" => ["html_strip"]
}
},
:tokenizer => {
:kuromoji => {
"type" => "kuromoji_tokenizer",
}
}
en_analyzer
英語のタイトルとja_analyzer
日本語のタイトルの場合。
ngram を使用する必要がありますか、それとも他の種類のアナライザーを試す必要がありますか? 検索結果を比較するのは難しいです。誰かが e コマース検索の経験があり、私を助けてくれるかもしれません。