11

ビッグデータとして分類される資格があるのはどのくらいの量のデータですか?

どのサイズのデータ​​で、今がHadoopのようなテクノロジーを採用し、分散コンピューティングのパワーを使用する時期であると判断できますか?

これらのテクノロジーを採用することには一定のプレミアムがあると思います。ビッグデータの手法を使用して現在のシステムを活用できるようにするにはどうすればよいでしょうか。

4

2 に答える 2

12

「ビッグデータ」はやや曖昧な用語であり、技術的な意思決定よりもマーケティング目的で使用されます。ある人が「ビッグデータ」と呼んでいるものは、単一のシステムでの日常業務であると考えるかもしれません。

私の大まかなルールは、ビッグデータは、単一システムのメインメモリに収まらないワーキングセットのデータがあるところから始まるということです。ワーキングセットは、特定の時間にアクティブに作業しているデータです。したがって、たとえば、10 TBのデータを保存するファイルシステムがあり、それを使用して編集用のビデオを保存している場合、編集者はいつでも数百ギガしか必要としない可能性があります。そして、彼らは通常、そのデータをディスクからストリーミングしているので、ランダムアクセスは必要ありません。ただし、定期的に変更される10 TBのデータセット全体に対してデータベースクエリを実行しようとしている場合は、そのデータをディスクから提供する必要はありません。それが「ビッグデータ」になり始めます。

基本的な経験則として、今すぐ2TBのRAM用に既製のDellサーバーを構成できます。しかし、1つのシステムにそれだけのRAMを詰め込むには、かなりのプレミアムを支払うことになります。単一サーバー上の512GBのRAMははるかに手頃な価格であるため、一般に、2TBの単一マシンよりも512GBのRAMを備えた4台のマシンを使用する方が費用効果が高くなります。したがって、512 GBを超えるワーキングセットデータ(日常的に特定の計算のためにアクセスする必要のあるデータ)は、「ビッグデータ」と見なされると言えるでしょう。

従来のデータベースとは対照的に、「ビッグデータ」システム用のソフトウェアを開発するための追加コストを考えると、一部の人々にとっては、複数のシステムに分散するようにシステムを再設計するよりも、その2TBシステムに移行する方が費用効果が高い場合があります。ニーズに応じて、512GBから2TBのデータが、「ビッグデータ」システムに移行する必要があるポイントになる場合があります。

技術的な決定を行うために「ビッグデータ」という用語を使用することはありません。代わりに、実際のニーズを定式化し、それらのニーズに今すぐ対応するために必要なテクノロジーの種類を決定します。少し成長を検討しますが、システムの容量はまだ増加していることも忘れないでください。ですから、計画を立てすぎないでください。多くの「ビッグデータ」システムは使いにくく、柔軟性がない可能性があるため、データと計算を数十または数百のシステムに分散させるために実際にそれらを必要としない場合、それらは価値があるよりも厄介になる可能性があります。

于 2012-12-26T19:46:54.783 に答える
10

ビッグデータのwikiページから引用するには:

従来のデータベース管理ツールを使用して特定の量のデータを保存、検索、分析、共有などすることが困難になると、その大規模で複雑なデータセットはビッグデータと呼ばれます。

基本的に、それはすべて相対的です。ビッグデータと見なされるものは、データセットを管理する組織の機能によって異なります。一部の組織では、数百ギガバイトのデータに初めて直面すると、データ管理オプションを再検討する必要が生じる場合があります。他の人にとっては、データサイズが重要な考慮事項になるまでに数十または数百テラバイトかかる場合があります。

データの量は、ビッグデータを定義する上で重要な要素の1つにすぎません。Varietyデータのvelocity増加とデータの増加は、データセットをビッグデータとして定義する際のその他の2つの主要な要素です。

Varietyデータ内とは、従来のリレーショナルデータベースの範囲を超えた方法で分析および処理する必要がある可能性のある多くの異なるデータおよびファイルタイプを持つことを意味します。この種類の例としては、サウンドおよびムービーファイル、画像、ドキュメント、地理空間データ、 Webログ、およびテキスト文字列。

Velocityデータの変化の速度と、重要な価値を生み出すためにデータを処理する必要がある速度についてです。従来のテクノロジーは、高速データの保存と使用には特に適していません。したがって、新しいアプローチが必要です。問題のデータが作成され、非常に迅速に集約され、パターンや問題を明らかにするために迅速に使用する必要がある場合、速度が速くなり、ビッグデータの問題が発生する可能性が高くなります。

ちなみに、「費用対効果の高い」ソリューションを探している場合は、AmazonのEMRを調べることができます。

于 2012-12-26T19:14:33.983 に答える