私はLuceneと協力してドキュメントのインデックス作成と検索を行ってきましたが、私の仕事は英語でしたが、現在はクルド語のプロジェクトがあります。クルド語はいくつかのアラビア文字と他のいくつかの文字を使用しています。これが表です。クルド語-アラビア文字で使用されるUnicode文字の数
私の質問は、この言語用のアナライザーを作成する方法です。または、この目的でアラビア語アナライザーを使用できますか?
私はLuceneと協力してドキュメントのインデックス作成と検索を行ってきましたが、私の仕事は英語でしたが、現在はクルド語のプロジェクトがあります。クルド語はいくつかのアラビア文字と他のいくつかの文字を使用しています。これが表です。クルド語-アラビア文字で使用されるUnicode文字の数
私の質問は、この言語用のアナライザーを作成する方法です。または、この目的でアラビア語アナライザーを使用できますか?
Luceneには、アラビア語を含む他のアナライザーのリストがあります。特にクルド人をターゲットにしている人はいないのではないかと思いますが、アラビア語のアナライザーをニーズに合わせて拡張できるかもしれません。
これらのアナライザーはすべて、Luceneのメインディストリビューションとは別に提供されていることに注意してください。
新しい言語用のカスタム アナライザーの作成方法についての質問に答えるには、「Lucene In Action」という本でカスタム アナライザーの作成について説明されており、かなり詳しく説明されています。他のアナライザーにある多くのコードを「活用」して、必要なものを変更するだけです。Lucene はオープン ソースで非常に拡張性が高いため、これらの変更のプロファイリングは非常に簡単です。