「パターン」トークナイザーで「keep_types」フィルターを使用すると問題が発生します。例を次に示します。
{
"tokenizer": {
"type": "pattern",
"pattern": "[()., _-]"
},
"filter": [
"lowercase",
"asciifolding",
{
"type": "keep_types",
"types": [
"<ALPHANUM>"
]
}
],
"text": [
"7002982065_8031949292_Bomba (Vácuo,pressão) - Suryha.pdf"
]
}
_analyze API に対する結果は次のとおりです。
{
"tokens": []
}
keep_types を削除すると、意図したとおりに機能します。
また、「標準」アナライザーを使用すると問題なく動作することにも気付きましたが、この場合、目的の方法でテキストがトークン化されません。
私はバージョン6.8を使用していますが、7.5でも同じ結果で試しました...
何か案は?