python - sqlite3/Pythonで「選択」中にキャッシュされるデータは何ですか?これは最初から手動で行うことができますか?

Question

数千行の sqlite データベースがあり、それぞれがかなりのサイズの一意のブロブを含むか参照しており、このコレクションをまばらにサンプリングして、rowid または同等の主キーに基づいて行を取得するとします。接続後 (20k 行から) いくつか (500) のデータポイントを初めて取得しようとすると、呼び出しが戻るまでに 10 秒以上かかることがわかりました。そして、連続する反復ごとに、呼び出しはどんどん短くなり、50 ～ 100 回のそのようなクエリの後、約 100 ミリ秒に収束します。

明らかに、sqlite またはその python ラッパーのいずれかがキャッシュされている必要があります...何か。非アクティブなメモリをクリアすると (私は OS X を使用していますが、Linux には同等の「完全に削除」コマンドがあると思いますか?)、動作は正確に再現できます。問題は、インデックスが対応していないキャッシングとは何かということです。さらに、これらのクエリを加速している情報を最初から自動的にメモリに取り込むことは可能ですか? それとも、私が完全に見逃した何かがありますか？

誰かがすぐに答えを知らない場合に備えて、いくつかのメモ...

各ブロブは約 40kB であり、問題の大きな (ha) ソースです。家で遊びたい人のために、以下にいくつかのコードを示しますが、ソート可能な情報とデータ用に別々のテーブルを保持する方がうまくいきました。これにより内部結合が導入されますが、一般的には、すべてをまとめておくよりも優れています (ただし、これが間違っていると感じている人がいる場合は、その意見を聞きたいと思います)。内部結合/データフェッチがなければ、物事は 4 秒で始まり、急いで 3 ミリ秒に落ちます。
これは PRAGMA のものかもしれないと思いますが、Web の荒野で他の人が提案したいくつかの設定をいじってみましたが、実際には何のメリットもありませんでした.
インメモリデータベースはオプションではありません。1 つには、スレッド間で共有しようとしています (これは実際にはメモリ内の問題ではないかもしれません...? よくわかりません) が、より重要なことに、データベースファイルは通常 17 GB 程度です。それで、それは出ました。
そうは言っても、妥当な量の情報をキャッシュすることに問題はありません。とにかく、数十回の呼び出しの後、非アクティブなメモリはいくらか肥大化しますが、(1)正しく、(2)効率的に行うことをお勧めします。

さて、物事を複製しようとする人のためのコードです。それをコピーしてスタンドアロンスクリプトに貼り付けることができるはずです (これは基本的に私が行ったことであり、書式設定のために保存します)。

import sqlite3
import numpy as np
import time

ref_uid_index = """CREATE INDEX ref_uid_idx
                   ON data(ref_uid)"""


def populate_db_split(db_file, num_classes=10, num_points=20000, VERBOSE=False):
    def_schema_split0 = """
    CREATE TABLE main (
        uid            INTEGER PRIMARY KEY,
        name           TEXT,
        label          INTEGER,
        ignore         INTEGER default 0,
        fold           INTEGER default 0)"""

    def_schema_split1 = """
        CREATE TABLE data (
            uid            INTEGER PRIMARY KEY,
            ref_uid        INTEGER REFERENCES main(uid),
            data           BLOB)"""

    def_insert_split0 = """
        INSERT INTO main (name, label, fold)
            VALUES (?,?,?)"""

    def_insert_split1 = """
        INSERT INTO data (ref_uid, data)
            VALUES (?,?)"""

    blob_size= 5000
    k_folds = 5
    some_names = ['apple', 'banana', 'cherry', 'date']

    dbconn = sqlite3.connect(db_file)
    dbconn.execute(def_schema_split0)
    dbconn.execute(def_schema_split1)

    rng = np.random.RandomState()
    for n in range(num_points):
        if n%1000 == 0 and VERBOSE:
            print n

        # Make up some data
        data = buffer(rng.rand(blob_size).astype(float))
        fold = rng.randint(k_folds)
        label = rng.randint(num_classes)
        rng.shuffle(some_names)

        # And add it
        dbconn.execute(def_insert_split0,[some_names[0], label, fold])
        ref_uid = dbconn.execute("SELECT uid FROM main WHERE rowid=last_insert_rowid()").fetchone()[0]
        dbconn.execute(def_insert_split1,[ref_uid,data])

    dbconn.execute(ref_uid_index)
    dbconn.commit()
    return dbconn

def timeit_join(dbconn, n_times=10, num_rows=500):
    qmarks = "?,"*(num_rows-1)+"?"

    q_join = """SELECT data.data, main.uid, main.label
              FROM data INNER JOIN main ON main.uid=data.ref_uid
              WHERE main.uid IN (%s)"""%qmarks

    row_max = dbconn.execute("SELECT MAX(rowid) from main").fetchone()[0]

    tstamps = []
    for n in range(n_times):
        now = time.time()
        uids = np.random.randint(low=1,high=row_max,size=num_rows).tolist()
        res = dbconn.execute(q_join, uids).fetchall()

        tstamps += [time.time()-now]
        print tstamps[-1]

ここで、複製したい場合は、次のようにします。私のマシンでは、これにより 800MB のデータベースが作成され、以下のようなものが生成されます。

>>> db = populate_db_split('/some/file/path.db')
>>> timeit_join(db)
12.0593519211
5.56209111214
3.51154184341
2.20699000359
1.73895692825
1.18351387978
1.27329611778
0.934082984924
0.780968904495
0.834318161011

それで... 知識豊富な賢者はどう思いますか?

score 0 · Accepted Answer

GB サイズのデータベースファイルが完全にメモリに読み込まれることはありません。それらは、いわゆるページのツリーに分割されます。これらのページはメモリにキャッシュされ、デフォルトは 2000 ページです。

次のステートメントを使用して、たとえば、1kB サイズのキャッシュされたページの数を 2 倍にすることができます。

    conn.execute("""PRAGMA cache_size = 4000""")

関数の説明でわかるように、接続には最後の 100 ステートメントのキャッシュがあります。

    sqlite3.connect(database[, timeout, detect_types, isolation_level, check_same_thread, factory, cached_statements])

cached_statements は整数を期待し、デフォルトは 100 です。

キャッシュサイズを設定する場合を除き、アプリケーションの起動時にステートメントやページを積極的にキャッシュしてもメリットはほとんどありません。

python - sqlite3/Pythonで「選択」中にキャッシュされるデータは何ですか?これは最初から手動で行うことができますか?

1 に答える 1

Related

Reference