わかりました、この質問は奇妙かもしれませんが、私はリトアニア語でのみページのクローラーを作成することを計画しており、データの量(したがって、それにかかる時間)を見積もろうとしています。おそらく他の誰かが同じような経験をしていますか?
1 に答える
1
いくつかの統計を見ると、非常に大まかな見積もりを行うことができます。
- 平均ページサイズは320KBです
- リトアニアの人口は世界人口の0.04%です
- インターネット上には約1兆ページあります
- マークアップファイルの圧縮率は2:1から4:1の間です(これもGoogleによって確認されています)。
したがって、世界の各国にインターネット上のページの比例した所有権を与えると(これは正しい仮定ではありませんが、役立つはずです)、リトアニアでは1兆ページの0.04%が4億ページになります。
4億*320KB=119.20929テラバイト
ページを圧縮し、 4:1圧縮の最良のシナリオを想定した場合、約30テラバイトを見ていることになります。安全を確保するには、120テラバイトが必要だと思います。TBあたり約100ドルの現在の価格を想定すると、このデータを保存するには、ハードドライブだけで3,000ドルから12,000ドルが必要になります。
さて、大きな問題は、実際にそのすべてのデータが必要かどうかということです。
于 2013-03-20T15:56:29.727 に答える