algorithm - 可変長のレコードストレージと、主キーのみを検索するディスク上の検索のためのデータ構造/アルゴリズム

Question

挿入、取得、更新、削除に最適化された大規模なブロックベースのデバイス (機械式ハードドライブなど) でうまく機能するアルゴリズム/データ構造を探しています。 ID のフィールドは可変長です。

B-Tree は一般的に引用される構造のようですが、主に固定長レコード用です。また、挿入や削除よりも取得や更新の方がはるかに多いと予想しています。B ツリーの O(log m) ルックアップを取り除くことはできますか?

結合されたシステムであることに非常に満足しています。たとえば、ISAM は B ツリーと線形ファイルストレージを結合し、アプローチとして可変長レコードを操作できるように見えます。もっと良いものはありますか？

いくつかのさらなる制約:

1) ID は疎である可能性がありますが、線形の数字のブロックにすることができますが、範囲は広い (64 ビット)

2) DBMS を使用したくありません。特定の問題に対するパフォーマンスはあまり良くありません。完全な DBMS が使用する操作は必要ありません。検索も必要ありません。簡単に微調整して最適化できるものが必要です。それをアカデミックな好奇心と呼んでください。MySQL よりもパフォーマンスが優れている場合は、それを使用しますが、より速く実行する必要があります。

3) データセットはメモリに収まりきらないサイズですが、インデックスはキーやオフセットのように単純な場合はメモリに収まる可能性があります。私は確かに、ストレージ内に 10 億以上のエンティティを見ています。

4) 理想的には、レコードが削除されたときにスペースを回復する必要があります。それは圧縮によるものかもしれませんが、より良い方法があるかどうかを知りたいです（たとえば、Bツリーはスペースを簡単に回復します）。

score 11 · Accepted Answer

簡単な方法: Berkeley DB などを使用します。任意のバイト文字列のキーと値のストアを提供し、すべての面倒な作業を自動的に行います。必要に応じて、インデックス作成用の「セカンダリデータベース」も提供します。

自分でやる方法: プロトコルバッファ (または選択したバイナリ形式) を使用して、B ツリーノードとデータ項目構造を定義します。データベースに追加専用ファイルを使用します。新しいレコードを書き込んだり、既存のレコードを変更したりするには、レコード自体をファイルの末尾に書き込んでから、変更された B ツリーノード (たとえば、レコードの親ノード、その親ノードなど)を書き込みます。根）。次に、ツリーの新しいルートの場所を、ファイルの先頭にあるヘッダーブロックに書き込みます。ファイルを読み取るには、最新のルートノードを見つけて、他のファイルと同じように B ツリーを読み取るだけです。このアプローチにはいくつかの利点があります。

書き込まれたデータは決して変更されないため、リーダーはロックを取得する必要がなく、読み取りを開始した時点のルートノードに基づいて DB の「スナップショット」ビューを取得します。
ノードとレコードに「以前のバージョン」フィールドを追加することで、基本的に無料で以前のバージョンの DB にアクセスできるようになります。
変更をサポートするほとんどのディスク上のファイル形式と比較して、実装とデバッグが非常に簡単です。
データベースの圧縮は、最新バージョンのデータと B ツリーを読み込んで新しいファイルに書き込むだけです。

score 0 · Accepted Answer

データベースが非常に重要な場合は、Key-Valueストアを検討してください。

本当に自分で実装する場合は、ディスクベースのハッシュテーブルまたはBツリーを使用してください。可変長値の問題を回避するには、値を別のファイルに保存し、データファイルのインデックスとしてBツリーを使用します。値の削除後のスペースの再利用は注意が必要ですが、可能です（たとえば、データファイルの空きスペースのビットセットによって）。

score 0 · Accepted Answer

商用のデータベースエンジンを使用するのが最適な場合があります。

インデックスを格納することで、B ツリーの O(log m) ルックアップを取り除くことができます。つまり、{"logical ID" は "physical location" にマップされます} 値のペアをハッシュマップ (論理 ID でハッシュ) に格納します。 ...または、ID値がスパースでない場合、bdonlanが示唆するように、連続したベクトルにインデックスを格納します(オフセット値のベクトルへのインデックスとして使用される論理IDを使用)。

重要な実装の詳細は、インデックスにアクセスするために使用する API である可能性があります。それを RAM (O/S がシステムページファイルでバックアップします) に格納し、ポインターを使用してインプロセスでアクセスするか、および/またはインデックスに格納するかどうかです。ディスク (O/S がファイルシステムキャッシュにキャッシュする) にアクセスし、ファイル I/O API を使用してアクセスします。

algorithm - 可変長のレコード ストレージと、主キーのみを検索するディスク上の検索のためのデータ構造/アルゴリズム

5 に答える 5

Related

Reference

algorithm - 可変長のレコードストレージと、主キーのみを検索するディスク上の検索のためのデータ構造/アルゴリズム