問題タブ [standardanalyzer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Lucene 4 - インデックス内の数値用語を破棄するには?
Apache Luceneでインデックスを作成する前に、 Apache Tikaを使用してxml ドキュメントを解析しています。
これはティカの部分です:
StandardAnalyzer とストップ ワード リストを使用して、ドキュメントをトークン化します。
数値用語は必要ないので破棄できますか?
ご協力いただきありがとうございます。
java - デューク - org.apache.lucene.analysis.standard.StandardAnalyzer
https://github.com/larsga/Duke - データ重複除去のために Duke を使用しています。
Duke をセットアップしました (jar ファイル - Duke jar と lucene jar がクラスパスに追加されます) ..
github のサンプル例 - https://github.com/larsga/Duke/wiki/SemanticDogfood
一方、同じ github の他の例は機能します - https://github.com/larsga/Duke/wiki/LinkingCountries
誰でも助けてくれますか..よろしくお願いします..