1

ソースコードファイルにインデックスを付けるLuceneベースのプログラムがありますが、LuceneStandardTokenizerはドットを含む単語を分割しないことに気付きましたfoo.bar。これに伴う問題は、ソースコードでは、ドットがメソッド呼び出しでよく使用されることです。この場合、オブジェクト名とメソッド名を分離する必要があります。

Tokenizerだから、私の質問は、一般的にソースコードでうまく機能するカスタムを書くにはどうすればよいですか(たとえば、特定のプログラミング言語はありません)?既存の実装はありますか?

4

2 に答える 2

4

Lucene を使用したソース コードのインデックス作成に関する onjava.com のこの記事を確認できます。この記事は数年前のものですが、ガイドラインとして役立ちます。トークナイザーに関しては、あなたが望むことをしているように見える LowerCaseTokenizer を使用しています。

于 2012-08-03T19:49:58.500 に答える