4

言語コーパス検索エンジンを構築するための優れたライブラリを見つけようとしています。このようなエンジンは、完全に透過的な検索結果 (見つかった一致の正確な数、コーパス全体が一致した場合でも結果の切り取りなし)、基本的なクエリ構文 (AND、OR、NOT 演算子、距離検索、ワイルドカード検索)、および検索結果を絞り込む機能を生成する必要があります。検索するように設定されたドキュメント (つまり、subcirous の設定)。重要な詳細は、インデックスの分割と検索を並行して実行する機能です (コーパスのサイズは 10^8 ワードのオーダーで、検索サービスはリアルタイムでなければなりません)。

主な選択肢は、Sphinx と Clucene (C++ Lucene ポート) の間です。残念ながら、私はこれらのライブラリの編成についてよく知らないので、どちらが私の要件により適しているかを知ることは非常に役に立ちます。

(私は専用のエンジンである IMS Corpus Workbench も試しましたが、これは必要に応じてスケーラブルではないことが判明しました)。

4

1 に答える 1

1

Lucene の派生物であり、Restful インターフェイスを備えた SOLR サーバーをセットアップすることをお勧めします。Lucene(SOLR) の新しい機能は、他の対応するものとは比べものになりません。10^8 の異なる単語のコーパス。懸念事項かもしれませんが、それらが区別されていないことを願っています。せいぜい、私の推測では、パフォーマンスがいくらか低下する可能性があります。裸の Lucene でパーティショニングと検索を並行して提供することは、痕跡的な努力になります。SOLR は両方の機能を提供します。私はスフィンクスについてあまり知りません。しかし、今のところ、Lucene とその派生製品は最前線にあります。

于 2013-03-11T20:57:47.377 に答える