1

約 10 6用語の大きな転置インデックスを作成したいと考えています。どのような方法をお勧めしますか? 東京キャビネット、voldemort などの高速バイナリ キー ストア DB で考えています index、クエリは非常に遅かったです。このような状況では、SQL データベースのオーバーヘッド、トランザクションのオーバーヘッド、クエリの解析などが多すぎると思います。私は、優れた応答時間とパフォーマンスを持ちながら拡張できるテクノロジまたはアルゴリズムのアプローチを探しています。私は研究目的で独自のソリューションを展開しています。

4

3 に答える 3

3

質問はやや曖昧なので、私ができる唯一の答えは、PostgreSQLで「一般化された逆インデックス」( GIN index )を使用して、必要な種類の逆インデックスを作成することだと思います。クラッシュの安全性のために先行書き込みログを使用し、パフォーマンスのために内部的に btree 構造を使用し、成熟したデータベース管理システムの一部です。

問題が全文検索である場合、postgresql の全文検索は既に構築されており、内部で GIN を使用できます。

于 2009-10-15T16:48:52.077 に答える
0

それはあなたがあなた自身を転がそうとしている非常にクールです。おそらく、Luceneの転置インデックスファイル形式について調べてみてください。 http://lucene.apache.org/java/3_1_0/fileformats.html

于 2011-04-19T14:05:59.460 に答える
0

はい、間違いなく、インデックス作成用のLuceneを、基本的に現在優れたインデクサーと見なしてください。実際、私は現在、画像のデータベースにインデックスを付けるためにそれを検討しています。「デフォルト」言語は Java ですが、C++ のCLucene 、Python のPyLuceneなどの他の言語に移植されています。

簡単なチュートリアルはここにあります。

于 2011-12-22T06:04:18.780 に答える