読んでくれてありがとう :)
Lucene を使用して、RTF ドキュメント全体で「UTTD_Equip_City_TE」などの単語を検索しようとしています。この単語は、次の 2 つの異なる形式で表示されます。
- «UTTD_Equip_City_TE»,
- «UTTD_Equip_City_TE»
最初にStandardAnalyzerで試してみたのですが、単語を「UTTD」「Equip」「City」「TE」に分解するようです。
その後、WhiteSpaceAnalyzer を使用して再試行しましたが、機能していないようです... (理由はわかりません)。
この問題にアプローチする方法を教えてください。ところで、Lucene ソースを編集して Ant で再コンパイルすることはオプションではありません :(
ありがとう。
編集: このドキュメントには他のテキストもあります。例えば:
SHIP TO LESSEE (EQUIPMENT location address): «UTTD_Equip_StreetAddress_TE», «UTTD_Equip_City_TE», «UTTD_Equip_State_MC»
基本的に、RTF ファイルのインデックスを作成しようとしています。各 RTF ファイル内には、変数を含むテーブルがあります。変数は と でラップされ«
ます»
。ドキュメントでこれらの変数を検索しようとしています。検索してみまし"«" + string + "»"
たが、うまくいきませんでした...
この例は、より良い画像を提供する可能性があります: http://i.imgur.com/SwlO1.png
助けてください。