Apache Luceneでインデックスを作成する前に、 Apache Tikaを使用してxml ドキュメントを解析しています。
これはティカの部分です:
BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(f);
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
return handler.toString();// return simple text
StandardAnalyzer とストップ ワード リストを使用して、ドキュメントをトークン化します。
analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET); // using stop words
数値用語は必要ないので破棄できますか?
ご協力いただきありがとうございます。