私はピルセンが初めてで、アンダースコアのみに基づいてテキストをトークン化するカスタム アナライザーを構築しようとしています。つまり、空白を保持する必要があります。例: "Hi_this is_awesome" は ["hi", "this is", "awesome"] トークンにトークン化する必要があります。
さまざまなコード例から、CustomTokenizer の incrementToken メソッドをオーバーライドし、同じことを達成するために TokenStream が CustomTokenizer に続いて LowerCaseFilter を使用する必要がある CustomAnalyzer を記述する必要があることを理解しました。
ピルセンに関するドキュメントがほとんどないため、incrementToken メソッドの実装とドットの接続 (通常、アナライザーは TokenStreams に依存する TokenFilter に依存するため、トークナイザーの使用方法) で問題に直面しています。