言語コーパス検索エンジンを構築するための優れたライブラリを見つけようとしています。このようなエンジンは、完全に透過的な検索結果 (見つかった一致の正確な数、コーパス全体が一致した場合でも結果の切り取りなし)、基本的なクエリ構文 (AND、OR、NOT 演算子、距離検索、ワイルドカード検索)、および検索結果を絞り込む機能を生成する必要があります。検索するように設定されたドキュメント (つまり、subcirous の設定)。重要な詳細は、インデックスの分割と検索を並行して実行する機能です (コーパスのサイズは 10^8 ワードのオーダーで、検索サービスはリアルタイムでなければなりません)。
主な選択肢は、Sphinx と Clucene (C++ Lucene ポート) の間です。残念ながら、私はこれらのライブラリの編成についてよく知らないので、どちらが私の要件により適しているかを知ることは非常に役に立ちます。
(私は専用のエンジンである IMS Corpus Workbench も試しましたが、これは必要に応じてスケーラブルではないことが判明しました)。