ソースコードファイルにインデックスを付けるLuceneベースのプログラムがありますが、LuceneStandardTokenizerはドットを含む単語を分割しないことに気付きましたfoo.bar。これに伴う問題は、ソースコードでは、ドットがメソッド呼び出しでよく使用されることです。この場合、オブジェクト名とメソッド名を分離する必要があります。
Tokenizerだから、私の質問は、一般的にソースコードでうまく機能するカスタムを書くにはどうすればよいですか(たとえば、特定のプログラミング言語はありません)?既存の実装はありますか?