0

「パターン」トークナイザーで「keep_types」フィルターを使用すると問題が発生します。例を次に示します。

    {
        "tokenizer": {
            "type": "pattern",
            "pattern": "[()., _-]"
        },
        "filter": [
            "lowercase",
            "asciifolding",
            {
                "type": "keep_types",
                "types": [
                    "<ALPHANUM>"
                ]
            }
        ],
        "text": [
            "7002982065_8031949292_Bomba (Vácuo,pressão) - Suryha.pdf"
        ]
    }

_analyze API に対する結果は次のとおりです。

  {
    "tokens": []
  }

keep_types を削除すると、意図したとおりに機能します。

また、「標準」アナライザーを使用すると問題なく動作することにも気付きましたが、この場合、目的の方法でテキストがトークン化されません。

私はバージョン6.8を使用していますが、7.5でも同じ結果で試しました...

何か案は?

4

1 に答える 1