数か月にわたって EC2 から数百万の URL をクロールする予定で、このデータをどこに保存するかを考えています。私の最終的な目標はそれを分析することですが、分析はすぐには行われない可能性があり (他の理由で今すぐクロールしたいのですが)、最終的にはデータのコピーを転送してローカル デバイスに保存したいと思うかもしれません。 . データは約5TBになると見積もっています。
私の質問: 私はこれに Glacier を使用することを検討しています。クロールされたページをローカル (EB 上) に保存するマルチスレッド クローラーを実行し、そのデータを結合、圧縮、および Glacier に転送する別のスレッドを使用するという考えです。Glacier での転送速度が必ずしも良いとは限らないことはわかっていますが、このプロセスにはオンライン要素がないため、実現可能と思われます (特に、クロール速度が速すぎる場合に備えてローカル EBS ボリュームのサイズをいつでも増やすことができるため)。 Glacier に保存します)。
私のアプローチに欠陥がありますか、またはこれを行うためのより費用対効果の高い信頼できる方法を誰かが提案できますか?
ありがとう!