ApacheLuceneで使用されている文字列照合アルゴリズムについて知りたいです。私はここで与えられたluceneによって使用されるインデックスファイル形式を調べてきました。luceneは、テキストに出現するすべての単語を、各ドキュメントで出現する頻度とともにそのまま保存しているようです。しかし、私が知る限り、効率的な文字列照合を行うには、ドキュメントに含まれる単語を前処理する必要があります。
例:「iamrohitbangaはstackoverflowのユーザーです」を検索します(あいまい一致を使用)
いくつかの文書で。
「rohitbanga」という文字列を含むドキュメントがある可能性があります
部分文字列rohitとbangaが検索文字列に存在することを見つけるために、いくつかの効率的な部分文字列マッチングを使用します。
それがどのアルゴリズムか知りたい。また、Java APIで関数呼び出しがトリガーする前処理を行う場合も、