exact-match - 正確なテキストシステムを開発するためのアルゴリズムと設計

Question

多くの段落で構成される何百万ものドキュメントがあります。要件は、このコーパスの上に完全一致検索システムを開発することです。通常、検索文字列は段落の先頭から始まり、2 つ以上の段落に及ぶ場合があります。このシステムにデータを保存するために使用されるデータ構造とアルゴリズムは何ですか。ドキュメントの追加のペースは、ページ全体の検索クエリのペースと比較してはるかに遅いことに注意してください。

score 0 · Accepted Answer

何百万ものレコードを自分で手動で解析すると、退屈で時間のかかる作業になります。

APACHE Lucene Engine を使用してドキュメントを解析できます。Lucene についてご存じない方のために説明すると、Lucene は全文検索、特にクロスプラットフォームを可能にするフル機能のテキスト検索エンジンライブラリです。

チェックアウト: http://lucene.apache.org

exact-match - 正確なテキスト システムを開発するためのアルゴリズムと設計

1 に答える 1

Related

Reference

exact-match - 正確なテキストシステムを開発するためのアルゴリズムと設計