多くの段落で構成される何百万ものドキュメントがあります。要件は、このコーパスの上に完全一致検索システムを開発することです。通常、検索文字列は段落の先頭から始まり、2 つ以上の段落に及ぶ場合があります。このシステムにデータを保存するために使用されるデータ構造とアルゴリズムは何ですか。ドキュメントの追加のペースは、ページ全体の検索クエリのペースと比較してはるかに遅いことに注意してください。
1 に答える
0
何百万ものレコードを自分で手動で解析すると、退屈で時間のかかる作業になります。
APACHE Lucene Engine を使用してドキュメントを解析できます。Lucene についてご存じない方のために説明すると、Lucene は全文検索、特にクロスプラットフォームを可能にするフル機能のテキスト検索エンジン ライブラリです。
チェックアウト: http://lucene.apache.org
于 2012-07-17T17:01:11.013 に答える