8

mongodb を使用して、scrapy フレームワークを使用して Web ページの生の HTML データを保存しています。Web スクレイピングの 1 日で、25GB のディスク容量がいっぱいになります。生データを圧縮形式で保存する方法はありますか。

4

3 に答える 3

7

Mongoの 2.8 バージョンから、圧縮を使用できます。WiredTiger エンジン、mmap では 3 レベルの圧縮があります (これは 2.6 のデフォルトであり、圧縮を提供しません)。

以下は、16 GB のデータでどれだけのスペースを節約できるかの例です。

ここに画像の説明を入力

データはこの記事から取得されます。

于 2014-12-20T06:35:52.967 に答える
0

次のように文字列を保存して圧縮できます: myhtml.encode('zlib')

于 2013-09-25T17:07:32.857 に答える