DynamoDBテーブルのすべてのアイテムを反復処理しようとしています。(これは非効率的なプロセスであることを理解していますが、インデックステーブルを作成するためにこれを1回だけ実行しています。)
DynamoDBのscan()関数が1MBまたは指定された制限のいずれか小さい方を返すことを理解しています。これを補うために、「LastEvaluatedKey」の結果を検索し、LastEvaluatedKeyから再クエリしてすべての結果を取得する関数を作成しました。
残念ながら、関数がループするたびに、データベース全体のすべてのキーがスキャンされ、割り当てられた読み取りユニットがすぐに使い果たされてしまうようです。非常に遅いです。
これが私のコードです:
def search(table, scan_filter=None, range_key=None,
attributes_to_get=None,
limit=None):
""" Scan a database for values and return
a dict.
"""
start_key = None
num_results = 0
total_results = []
loop_iterations = 0
request_limit = limit
while num_results < limit:
results = self.conn.layer1.scan(table_name=table,
attributes_to_get=attributes_to_get,
exclusive_start_key=start_key,
limit=request_limit)
num_results = num_results + len(results['Items'])
start_key = results['LastEvaluatedKey']
total_results = total_results + results['Items']
loop_iterations = loop_iterations + 1
request_limit = request_limit - results['Count']
print "Count: " + str(results['Count'])
print "Scanned Count: " + str(results['ScannedCount'])
print "Last Evaluated Key: " + str(results['LastEvaluatedKey']['HashKeyElement']['S'])
print "Capacity: " + str(results['ConsumedCapacityUnits'])
print "Loop Iterations: " + str(loop_iterations)
return total_results
関数の呼び出し:
db = DB()
results = db.search(table='media',limit=500,attributes_to_get=['id'])
そして私の出力:
Count: 96
Scanned Count: 96
Last Evaluated Key: kBR23QJNAwYZZxF4E3N1crQuaTwjIeFfjIv8NyimI9o
Capacity: 517.5
Loop Iterations: 1
Count: 109
Scanned Count: 109
Last Evaluated Key: ATcJFKfY62NIjTYY24Z95Bd7xgeA1PLXAw3gH0KvUjY
Capacity: 516.5
Loop Iterations: 2
Count: 104
Scanned Count: 104
Last Evaluated Key: Lm3nHyW1KMXtMXNtOSpAi654DSpdwV7dnzezAxApAJg
Capacity: 516.0
Loop Iterations: 3
Count: 104
Scanned Count: 104
Last Evaluated Key: iirRBTPv9xDcqUVOAbntrmYB0PDRmn5MCDxdA6Nlpds
Capacity: 513.0
Loop Iterations: 4
Count: 100
Scanned Count: 100
Last Evaluated Key: nBUc1LHlPPELGifGuTSqPNfBxF9umymKjCCp7A7XWXY
Capacity: 516.5
Loop Iterations: 5
これは予想される動作ですか?または、私は何が間違っているのですか?