mongodb を使用して、scrapy フレームワークを使用して Web ページの生の HTML データを保存しています。Web スクレイピングの 1 日で、25GB のディスク容量がいっぱいになります。生データを圧縮形式で保存する方法はありますか。
12891 次
3 に答える
7
Mongoの 2.8 バージョンから、圧縮を使用できます。WiredTiger エンジン、mmap では 3 レベルの圧縮があります (これは 2.6 のデフォルトであり、圧縮を提供しません)。
以下は、16 GB のデータでどれだけのスペースを節約できるかの例です。
データはこの記事から取得されます。
于 2014-12-20T06:35:52.967 に答える
0
次のように文字列を保存して圧縮できます: myhtml.encode('zlib')
于 2013-09-25T17:07:32.857 に答える