java - Lucene 4 - インデックス内の数値用語を破棄するには?

翻译自：https://stackoverflow.com/questions/28431311 2015-02-10T12:09:22.460

79 次

Apache Luceneでインデックスを作成する前に、 Apache Tikaを使用してxml ドキュメントを解析しています。

これはティカの部分です：

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text

StandardAnalyzer とストップワードリストを使用して、ドキュメントをトークン化します。

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words

数値用語は必要ないので破棄できますか?

ご協力いただきありがとうございます。

java - Lucene 4 - インデックス内の数値用語を破棄するには?

0 に答える 0

Related

Reference