基本的なヘブライ語のステミングを行いたいです。
私が見つけることができるカスタム アナライザーのすべての例は、常に他のアナライザーとフィルターをマージしますが、文字列レベルの処理自体は決して行いません。
たとえば、取得したストリーム内の用語ごとに、次のルールに従って 1 つまたは 2 つの用語を出力するアナライザーを作成したい場合、どうすればよいでしょうか。そのまま渡されます。着信用語が「a」で始まる場合、2 つの用語が発せられる必要があります。元の用語と、先頭の「a」がなく、ブーストが低い 2 番目の用語です。
そのため、ドキュメントに「help away」が含まれている場合、「help」、「away」、「way^0.8」が返されます。
これを行うには、アナライザーのどのメソッドをオーバーライドする必要がありますか? (同様の性質の例へのポインタは非常に役立ちます)。
ありがとう