database - 巨大な逆索引を作成する方法

Question

^{約 10 6}用語の大きな転置インデックスを作成したいと考えています。どのような方法をお勧めしますか? 東京キャビネット、voldemort などの高速バイナリキーストア DB で考えています。 index、クエリは非常に遅かったです。このような状況では、SQL データベースのオーバーヘッド、トランザクションのオーバーヘッド、クエリの解析などが多すぎると思います。私は、優れた応答時間とパフォーマンスを持ちながら拡張できるテクノロジまたはアルゴリズムのアプローチを探しています。私は研究目的で独自のソリューションを展開しています。

score 3 · Accepted Answer

質問はやや曖昧なので、私ができる唯一の答えは、PostgreSQLで「一般化された逆インデックス」（ GIN index ）を使用して、必要な種類の逆インデックスを作成することだと思います。クラッシュの安全性のために先行書き込みログを使用し、パフォーマンスのために内部的に btree 構造を使用し、成熟したデータベース管理システムの一部です。

問題が全文検索である場合、postgresql の全文検索は既に構築されており、内部で GIN を使用できます。

score 0 · Accepted Answer

それはあなたがあなた自身を転がそうとしている非常にクールです。おそらく、Luceneの転置インデックスファイル形式について調べてみてください。 http://lucene.apache.org/java/3_1_0/fileformats.html

score 0 · Accepted Answer

はい、間違いなく、インデックス作成用のLuceneを、基本的に現在優れたインデクサーと見なしてください。実際、私は現在、画像のデータベースにインデックスを付けるためにそれを検討しています。「デフォルト」言語は Java ですが、C++ のCLucene 、Python の PyLuceneなどの他の言語に移植されています。

簡単なチュートリアルはここにあります。

database - 巨大な逆索引を作成する方法

3 に答える 3

Related

Reference