google-app-engine - 大きなドキュメントを URL フェッチする際にプライベートメモリのソフト制限を超えないようにする

Question

比較的大きな xml ドキュメント (5Mb) を取得して処理する定期的にスケジュールされたタスクを実行する必要があります。

現在発生している問題は、アプリケーションインスタンスのメモリ制限に達し、タスクの実行中にインスタンスが終了することです。

私はいくつかの大まかな測定を行いました：

エンコードされたテキストを lxml パーサーに直接渡すことで、3 番目のステップを回避してメモリを節約できますが、lxml パーサーのエンコーディングを指定すると、GAE でいくつかの問題が発生します。

おそらくこの作業には MapReduce ライブラリを使用できますが、5 MB のファイルには本当に価値がありますか?

別のオプションとして、タスクを複数のタスクに分割することもできます。

また、おそらくファイルをブロブストアに保存してから、ブロブストアから1行ずつ読み取って処理できますか? 補足として、UrlFetch サービスが応答を「オンデマンド」で読み取れるようにして、大きなドキュメントの処理を簡素化できると便利です。

では、一般的に言えば、そのような種類の作業を実行する最も便利な方法は何ですか?

ありがとうございました！

score 2 · Accepted Answer

これはフロントエンドインスタンスですか、それともバックエンドインスタンスですか？私にはバックエンドインスタンスの仕事のように見えます。

さまざまなインスタンスタイプの使用を検討しましたか？

google-app-engine - 大きなドキュメントを URL フェッチする際にプライベート メモリのソフト制限を超えないようにする