0

多くの段落で構成される何百万ものドキュメントがあります。要件は、このコーパスの上に完全一致検索システムを開発することです。通常、検索文字列は段落の先頭から始まり、2 つ以上の段落に及ぶ場合があります。このシステムにデータを保存するために使用されるデータ構造とアルゴリズムは何ですか。ドキュメントの追加のペースは、ページ全体の検索クエリのペースと比較してはるかに遅いことに注意してください。

4

1 に答える 1

0

何百万ものレコードを自分で手動で解析すると、退屈で時間のかかる作業になります。

APACHE Lucene Engine を使用してドキュメントを解析できます。Lucene についてご存じない方のために説明すると、Lucene は全文検索、特にクロスプラットフォームを可能にするフル機能のテキスト検索エンジン ライブラリです。

チェックアウト: http://lucene.apache.org

于 2012-07-17T17:01:11.013 に答える