0

全文検索用の検索エンジンを作成していますが、説明付きの結果を表示するとパフォーマンスに問題があります。現在のクエリの結果を作成しましたが、パフォーマンスの低下は、テキストを取得してキーワードがある部分を強調表示しようとしたときです。私はpdf、txt、doc、docs、htmlなどを使用しています。したがって、私の検索エンジンは次のように機能します。

  • ドキュメントテキストを保存するdbテーブルがあります
  • 私はdbテーブルを持っており、その頻度でテキストにインデックスを付けています

このシナリオはまったく良いですか。インデックスを検索してドキュメントを取得し、テキストを解析し、文を取得し、キーワードで文をフィルタリングする必要があります。説明なしで検索する場合のパフォーマンスは次のとおりです。

**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев**  0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906

検索キーワードは私の母国語で、ドキュメントのコレクションは3679です。文の説明タグを使用すると、結果の表示が10倍から20倍遅くなります。(2〜3秒など)。検索はPythonで行われます。

それについて何か提案はありますか?

4

1 に答える 1

2

Elastic searchやSolr(どちらもLuceneに基づいています)のようなプロジェクトをご覧になることをお勧めします。どちらもあなたがやりたいこと(全文検索、結果のハイライトなど)などをサポートしています。

于 2012-05-26T09:56:30.973 に答える