リクエストURLでキー設定されたHTTP応答(コンテンツ、HTTPヘッダー、タイムスタンプ)を保持(およびキャッシュ)するのに適したPythonのキー/値ストアを探しています。このアプリケーションは、複数のサイトが定期的に照会されるWebスクレイピングエンジンです。次に、一連のルーチンがスクレイピングされたデータを分析します。
これまでに調査したオプションは次のとおりです。
pythonシェルフモジュール(高速ですが、データを配布できません。単一のプロセスでのみ書き込みます)
mongodb(比較的高速で、これまでのところ、私が探しているものに最適です)
couchdb(このアプリケーションには遅すぎます)
memcached(ストアが永続的ではなく、キャッシュされたデータを複製できないため、適切ではありません。間違っている場合は修正してください)
実際のスクレイピングデータを使用したパフォーマンス結果:
python shelve: 3500 reads/second
couchdb (couchdbkit): 33 reads/second
mongodb (pymongo): 2300 reads/second
redis: 1200 reads/second