問題タブ [standardanalyzer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
79 参照

java - Lucene 4 - インデックス内の数値用語を破棄するには?

Apache Luceneでインデックスを作成する前に、 Apache Tikaを使用してxml ドキュメントを解析しています。

これはティカの部分です:

StandardAnalyzer とストップ ワード リストを使用して、ドキュメントをトークン化します。

数値用語は必要ないので破棄できますか?

ご協力いただきありがとうございます。

0 投票する
3 に答える
660 参照

java - デューク - org.apache.lucene.analysis.standard.StandardAnalyzer

https://github.com/larsga/Duke - データ重複除去のために Duke を使用しています。

Duke をセットアップしました (jar ファイル - Duke jar と lucene jar がクラスパスに追加されます) ..

github のサンプル例 - https://github.com/larsga/Duke/wiki/SemanticDogfood

一方、同じ github の他の例は機能します - https://github.com/larsga/Duke/wiki/LinkingCountries

誰でも助けてくれますか..よろしくお願いします..