2

Amazon EC2 インスタンスで 100 MB の XML フィードをスクレイピングするために、scrapy を使用しています。ただし、実行するとメモリエラーが発生するため、立ち往生しています。私が一緒に作業しているコーダーは、100MB のファイルをより管理しやすいチャンクに分割することを提案していますが、これを行うためのより良い方法があるに違いないと確信しています。

ログ:

File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/iterators.py", line 22, in xmliter
        text = body_or_str(obj)
      File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/response.py", line 22, in body_or_str
        return obj.body_as_unicode() if unicode else obj.body
      File "/usr/local/lib/python2.7/dist-packages/scrapy/http/response/text.py", line 62, in body_as_unicode
        self._cached_ubody = html_to_unicode(charset, self.body)[1]
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 173, in html_to_unicode
        return enc, to_unicode(html_body_str, enc)
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 118, in to_unicode
        return data_str.decode(encoding, 'w3lib_replace')
      File "/usr/lib/python2.7/encodings/cp1252.py", line 15, in decode
        return codecs.charmap_decode(input,errors,decoding_table)
    exceptions.MemoryError: 

2013-08-08 17:53:29+0000 [site] INFO: Closing spider (finished)
2013-08-08 17:53:29+0000 [site] INFO: Dumping Scrapy stats:
    {'downloader/request_bytes': 241,
     'downloader/request_count': 1,
     'downloader/request_method_count/GET': 1,
     'downloader/response_bytes': 103257370,
     'downloader/response_count': 1,
     'downloader/response_status_count/200': 1,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2013, 8, 8, 17, 53, 29, 166687),
     'log_count/DEBUG': 7,
     'log_count/ERROR': 1,
     'log_count/INFO': 4,
     'response_received_count': 1,
     'scheduler/dequeued': 1,
     'scheduler/dequeued/memory': 1,
     'scheduler/enqueued': 1,
     'scheduler/enqueued/memory': 1,
     'spider_exceptions/MemoryError': 1,
     'start_time': datetime.datetime(2013, 8, 8, 17, 53, 26, 375069)}
2013-08-08 17:53:29+0000 [site] INFO: Spider closed (finished)

私の質問は、メモリの問題に遭遇することなくその 100 MB のファイルを処理できるようにするためにできることはありますか?

4

1 に答える 1

3

scrapy常に入力データ全体を Unicode にデコードしようとします。典型的なワイド Unicode ビルドでは、これは 100MB の HTML ページが 400MB に拡張されることを意味します。

それで、どうすればそれを回避できますか?

  • より大きな (および 64 ビット) EC2 インスタンスを使用します。
  • スクレイピーのように入力データ全体をデコードする必要のない別のライブラリを使用してください。
  • Python 3.3、または Python 2.x の狭い Unicode ビルドを使用すると、Unicode は 400MB ではなく 100MB または 200MB になります。
  • データをチャンクで読み取り、処理します。
于 2013-08-08T22:13:25.863 に答える