ソースコードファイルにインデックスを付けるLuceneベースのプログラムがありますが、LuceneStandardTokenizer
はドットを含む単語を分割しないことに気付きましたfoo.bar
。これに伴う問題は、ソースコードでは、ドットがメソッド呼び出しでよく使用されることです。この場合、オブジェクト名とメソッド名を分離する必要があります。
Tokenizer
だから、私の質問は、一般的にソースコードでうまく機能するカスタムを書くにはどうすればよいですか(たとえば、特定のプログラミング言語はありません)?既存の実装はありますか?