テキストとさまざまなソース コードが混在するドキュメントに使用するのに適した Lucene アナライザーは何でしょうか?
たとえば、「C」と「C++」を別の単語と見なしCharset.forName("utf-8")
、クラス名とメソッド名に分割し、パラメーターを 1 つまたは 2 つの単語と見なしたいと考えています。
私が見たいデータセットの良い例は、StackOverflow そのものです。StackOverflow は検索に Lucene.NET を使用していると思います。ストックアナライザーを使用していますか、それとも大幅にカスタマイズされていますか?