0

わかりました、この質問は奇妙かもしれませんが、私はリトアニア語でのみページのクローラーを作成することを計画しており、データの量(したがって、それにかかる時間)を見積もろうとしています。おそらく他の誰かが同じような経験をしていますか?

4

1 に答える 1

1

いくつかの統計を見ると、非常に大まかな見積もりを行うことができます。

したがって、世界の各国にインターネット上のページの比例した所有権を与えると(これは正しい仮定ではありませんが、役立つはずです)、リトアニアでは1兆ページの0.04%が4億ページになります。

4億*320KB=119.20929テラバイト

ページを圧縮し、 4:1圧縮の最良のシナリオを想定した場合、約30テラバイトを見ていることになります。安全を確保するには、120テラバイトが必要だと思います。TBあたり約100ドルの現在の価格を想定すると、このデータを保存するには、ハードドライブだけで3,000ドルから12,000ドルが必要になります。

さて、大きな問題は、実際にそのすべてのデータが必要かどうかということです。

于 2013-03-20T15:56:29.727 に答える