私は Apache solr を使用しています。音声フィルタ ファクトリを使用しようとしています。solr.PhoneticFilterFactory で使用できるすべてのエンコーダを試しましたが、いずれもインド語をサポートしていません。ヒンディー語、タミル語、ベンガル語などのインド言語の音声表現を取得できるように、他のフィルター/メソッドはありますか?
そうでない場合は、既存のフィルターを変更してこれらの言語をサポートする方法を教えてください。
私は Apache solr を使用しています。音声フィルタ ファクトリを使用しようとしています。solr.PhoneticFilterFactory で使用できるすべてのエンコーダを試しましたが、いずれもインド語をサポートしていません。ヒンディー語、タミル語、ベンガル語などのインド言語の音声表現を取得できるように、他のフィルター/メソッドはありますか?
そうでない場合は、既存のフィルターを変更してこれらの言語をサポートする方法を教えてください。
バージョン 3.6 で追加されたばかりで、(残念ながら) まだ十分に文書化されていない新しい Beider Morse Filter Factory を試しましたか?
https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.BeiderMorseFilterFactory
中央および東ヨーロッパの姓の音声検索用に開発されましたが、他の言語でも機能する可能性があります。個人的には、Soundex や他の古いサウンドに似た方法よりもはるかにうまく機能することがわかりました。