1

アイテム名を数字と記号で索引付けすることに関して問題があります。私のデータのサンプルを以下に示します。

ANGLE BARS   ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING     2" X 3"
B.I. PIPE S-40   10MM 3/8"
B.I SQUARE TUBING     1" X 2"
PLYWOOD   MARINE 3/4X4X8
PLYWOOD   STA. CLARA 1/8X4X8
PLYWOOD   STA. CLARA 3/16X4X8

これらの記号は非常に重要であるため、記号を削除せずに、空白または末尾のスペースでデータをトークン化したいです。そのため、「plywood sta。clara」、「bi square 2」、「X 3」、または「angle orange 2-1/2」を検索すると、結果が表示されます。ホワイトスペースアナライザーを使用しようとしましたが、シンボルが削除されます。standardanalyzerも試しましたが、ストップワードと記号も削除されます。代わりに使用するのに最適なアナライザーは何ですか?

4

2 に答える 2

3

正規表現を記述してPatternAnalyzerを使用するか、カスタムアナライザーを作成できます。

于 2012-02-15T08:52:54.980 に答える
0

org.apache.lucene.analysis.miscellaneous.PatternAnalyzerを使用してみてください。正規表現を指定して、トークン区切り文字を定義できます。

于 2012-02-15T08:46:19.047 に答える