0

リクエストURLでキー設定されたHTTP応答(コンテンツ、HTTPヘッダー、タイムスタンプ)を保持(およびキャッシュ)するのに適したPythonのキー/値ストアを探しています。このアプリケーションは、複数のサイトが定期的に照会されるWebスクレイピングエンジンです。次に、一連のルーチンがスクレイピングされたデータを分析します。

これまでに調査したオプションは次のとおりです。

  • pythonシェルフモジュール(高速ですが、データを配布できません。単一のプロセスでのみ書き込みます)

  • mongodb(比較的高速で、これまでのところ、私が探しているものに最適です)

  • couchdb(このアプリケーションには遅すぎます)

  • memcached(ストアが永続的ではなく、キャッシュされたデータを複製できないため、適切ではありません。間違っている場合は修正してください)

実際のスクレイピングデータを使用したパフォーマンス結果:

python shelve:           3500 reads/second
couchdb (couchdbkit):      33 reads/second
mongodb (pymongo):       2300 reads/second
redis:                   1200 reads/second                   
4

1 に答える 1

0

私はmongodbでキャップされたコレクションを使用することになりました。各エントリは、URL(主キー)、コンテンツ、およびヘッダーを保持します。上限付きコレクションでは削除が許可されていないため、コンテンツはNullに設定され、キャッシュされたエントリが削除されたことを示します。

于 2012-05-03T11:53:22.737 に答える