テキスト検索エンジンを実装したい。索引付けする特定の文書は、重みのある用語のリストになります。
クエリは用語の単純なリストです。
検索の出力は、関連性の一致 (用語とその重みに対して) によってソートされたリストである
必要があります。保存する必要があるデータは大きいです。単一のノードには収まりません。そのため、最終的なストレージは簡単に配布できる必要があります。
どのデータベース ストレージをお勧めしますか? いくつかの分析の後、Couchbase と Riak のどちらかを選択したいと思います。
[編集] 単なるリレーショナル データベースについてどう思いますか? 彼らはすでに配布のための優れたメカニズムを持っています(例:Postgres 9には組み込まれています)[/編集]
Riak には組み込みの検索機能がありますが、私が知る限り、それを使用したくありません。応答を取得するために (すべてのクエリに対して計算するのではなく) インデックスが必要だからです。
一方、Couchbase 2 は " JSON ドキュメントのセカンダリ インデックスを追加します。インデックスはビューを介して作成され、クエリを実行できます。インデックス作成は均等に分散されます。 "
これは Couchbase にとって大きな利点のように思えます。