1

Solr がドキュメントのインデックスを作成するときに、トークン間の余分なピリオドを削除したいと考えています。solr にインデックスを付ける前に、いつでもカスタム コードでこれを行うことができます。しかし、不要なピリオド (ドット) を取り除くトークナイザー、アナライザー、または構成はありますか? 例:この修理店はとても良いです... バイクを修理したい人にはお勧めです...試してみてください.....

複数のトークナイザーとアナライザーを使用しました。それらのどれもこれのために機能していないようです。現在、solr.WhitespaceTokenizerFactorysolr.WordDelimiterFilterFactoryを他のいくつかのフィルターと共に使用しています。私が WordDelimiterFilterFactory を使用している方法のために、solr は良い、良い...、自転車...、自転車、自転車ください、試して、試して.....

最後に...を使用して solr にトークンを生成させたくありません。カスタムコードを書かずにそれを行う方法についてのアイデアはありますか?........

4

1 に答える 1

1

solr.StandardTokenizerFactory を試しましたか?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

このトークナイザーを試してみましたが、期待どおりに動作するようです。

于 2013-07-02T09:30:18.867 に答える