数千行の sqlite データベースがあり、それぞれがかなりのサイズの一意のブロブを含むか参照しており、このコレクションをまばらにサンプリングして、rowid または同等の主キーに基づいて行を取得するとします。接続後 (20k 行から) いくつか (500) のデータポイントを初めて取得しようとすると、呼び出しが戻るまでに 10 秒以上かかることがわかりました。そして、連続する反復ごとに、呼び出しはどんどん短くなり、50 ~ 100 回のそのようなクエリの後、約 100 ミリ秒に収束します。
明らかに、sqlite またはその python ラッパーのいずれかがキャッシュされている必要があります...何か。非アクティブなメモリをクリアすると (私は OS X を使用していますが、Linux には同等の「完全に削除」コマンドがあると思いますか?)、動作は正確に再現できます。問題は、インデックスが対応していないキャッシングとは何かということです。さらに、これらのクエリを加速している情報を最初から自動的にメモリに取り込むことは可能ですか? それとも、私が完全に見逃した何かがありますか?
誰かがすぐに答えを知らない場合に備えて、いくつかのメモ...
各ブロブは約 40kB であり、問題の大きな (ha) ソースです。家で遊びたい人のために、以下にいくつかのコードを示しますが、ソート可能な情報とデータ用に別々のテーブルを保持する方がうまくいきました。これにより内部結合が導入されますが、一般的には、すべてをまとめておくよりも優れています (ただし、これが間違っていると感じている人がいる場合は、その意見を聞きたいと思います)。内部結合/データ フェッチがなければ、物事は 4 秒で始まり、急いで 3 ミリ秒に落ちます。
これは PRAGMA のものかもしれないと思いますが、Web の荒野で他の人が提案したいくつかの設定をいじってみましたが、実際には何のメリットもありませんでした.
インメモリ データベースはオプションではありません。1 つには、スレッド間で共有しようとしています (これは実際にはメモリ内の問題ではないかもしれません...? よくわかりません) が、より重要なことに、データベース ファイルは通常 17 GB 程度です。それで、それは出ました。
そうは言っても、妥当な量の情報をキャッシュすることに問題はありません。とにかく、数十回の呼び出しの後、非アクティブなメモリはいくらか肥大化しますが、(1)正しく、(2)効率的に行うことをお勧めします。
さて、物事を複製しようとする人のためのコードです。それをコピーしてスタンドアロン スクリプトに貼り付けることができるはずです (これは基本的に私が行ったことであり、書式設定のために保存します)。
import sqlite3
import numpy as np
import time
ref_uid_index = """CREATE INDEX ref_uid_idx
ON data(ref_uid)"""
def populate_db_split(db_file, num_classes=10, num_points=20000, VERBOSE=False):
def_schema_split0 = """
CREATE TABLE main (
uid INTEGER PRIMARY KEY,
name TEXT,
label INTEGER,
ignore INTEGER default 0,
fold INTEGER default 0)"""
def_schema_split1 = """
CREATE TABLE data (
uid INTEGER PRIMARY KEY,
ref_uid INTEGER REFERENCES main(uid),
data BLOB)"""
def_insert_split0 = """
INSERT INTO main (name, label, fold)
VALUES (?,?,?)"""
def_insert_split1 = """
INSERT INTO data (ref_uid, data)
VALUES (?,?)"""
blob_size= 5000
k_folds = 5
some_names = ['apple', 'banana', 'cherry', 'date']
dbconn = sqlite3.connect(db_file)
dbconn.execute(def_schema_split0)
dbconn.execute(def_schema_split1)
rng = np.random.RandomState()
for n in range(num_points):
if n%1000 == 0 and VERBOSE:
print n
# Make up some data
data = buffer(rng.rand(blob_size).astype(float))
fold = rng.randint(k_folds)
label = rng.randint(num_classes)
rng.shuffle(some_names)
# And add it
dbconn.execute(def_insert_split0,[some_names[0], label, fold])
ref_uid = dbconn.execute("SELECT uid FROM main WHERE rowid=last_insert_rowid()").fetchone()[0]
dbconn.execute(def_insert_split1,[ref_uid,data])
dbconn.execute(ref_uid_index)
dbconn.commit()
return dbconn
def timeit_join(dbconn, n_times=10, num_rows=500):
qmarks = "?,"*(num_rows-1)+"?"
q_join = """SELECT data.data, main.uid, main.label
FROM data INNER JOIN main ON main.uid=data.ref_uid
WHERE main.uid IN (%s)"""%qmarks
row_max = dbconn.execute("SELECT MAX(rowid) from main").fetchone()[0]
tstamps = []
for n in range(n_times):
now = time.time()
uids = np.random.randint(low=1,high=row_max,size=num_rows).tolist()
res = dbconn.execute(q_join, uids).fetchall()
tstamps += [time.time()-now]
print tstamps[-1]
ここで、複製したい場合は、次のようにします。私のマシンでは、これにより 800MB のデータベースが作成され、以下のようなものが生成されます。
>>> db = populate_db_split('/some/file/path.db')
>>> timeit_join(db)
12.0593519211
5.56209111214
3.51154184341
2.20699000359
1.73895692825
1.18351387978
1.27329611778
0.934082984924
0.780968904495
0.834318161011
それで... 知識豊富な賢者はどう思いますか?