lucene - 一般的なソースコード用のLuceneトークナイザー

Question

ソースコードファイルにインデックスを付けるLuceneベースのプログラムがありますが、LuceneStandardTokenizerはドットを含む単語を分割しないことに気付きましたfoo.bar。これに伴う問題は、ソースコードでは、ドットがメソッド呼び出しでよく使用されることです。この場合、オブジェクト名とメソッド名を分離する必要があります。

Tokenizerだから、私の質問は、一般的にソースコードでうまく機能するカスタムを書くにはどうすればよいですか（たとえば、特定のプログラミング言語はありません）？既存の実装はありますか？

score 4 · Accepted Answer

Lucene を使用したソースコードのインデックス作成に関する onjava.com のこの記事を確認できます。この記事は数年前のものですが、ガイドラインとして役立ちます。トークナイザーに関しては、あなたが望むことをしているように見える LowerCaseTokenizer を使用しています。

lucene - 一般的なソースコード用のLuceneトークナイザー

2 に答える 2

Related

Reference