hadoop - ビッグデータを処理するための MySQL Cluster と Hadoop の比較

Question

MySQL Cluster の使用と Hadoop フレームワークの使用の利点と欠点を知りたいです。より良い解決策は何ですか。私はあなたの意見を読みたいです。

MySQL Cluster を使用する利点は次のとおりだと思います。

高可用性
優れたスケーラビリティ
高性能 / リアルタイムデータアクセス
市販のハードウェアを使用できます

そして、私は不利な点を見ません！Hadoop にはない欠点はありますか?

その上に Hive を備えた Hadoop の利点は次のとおりです。

スケーラビリティも良好
市販のハードウェアも使用できます
異種環境で実行する機能
MapReduce フレームワークによる並列計算
HiveQL を使用したハイブ

欠点は次のとおりです。

リアルタイムのデータアクセスはありません。データの分析には数分から数時間かかる場合があります。

したがって、私の意見では、ビッグデータを処理するには MySQL クラスターの方が優れたソリューションです。Hadoop がビッグデータ処理の聖杯である理由あなたの意見は何ですか？

score 5 · Accepted Answer

上記の答えはどちらも、mySQL と Hadoop の大きな違いを見落としています。mySQL では、データを特定の形式で保存する必要があります。高度に構造化されたデータが好きです。テーブル内の各列のデータ型を宣言するなどです。Hadoop はこれをまったく気にしません。

例 - 10 億個のテキストログファイルがある場合、mySQL の分析を可能にするには、最初にデータを解析して mySQL テーブルにロードし、途中で各列を入力する必要があります。hadoop と mapreduce を使用して、未加工のソースからデータをスキャン/分析/返す関数を定義します。事前に構造化するために ETL を前処理する必要はありません。

データがすでに構造化されており、mySQL にある場合、(できれば) 適切に構造化されている場合、分析のために Hadoop 用にエクスポートする必要はありません。そうでない場合、データの ETL に時間を費やす必要はありません。

score 4 · Accepted Answer

Hadoop は MySQL を置き換えるものではないので、独自のシナリオがあると思います。</p>

Hadoop がバッチジョブやオフラインコンピューティングに適していることは誰もが知っていますが、hbase など、関連するリアルタイム製品も数多くあります。

オフラインコンピューティングとストレージアーチを選択する場合。

次の理由により、オフラインコンピューティングとストレージには MySQL クラスターではなく Hadoop をお勧めします。

コスト : 明らかに、Hadoop クラスターは MySQL クラスターよりも安価です
スケーラビリティ : Hadoop は、クラスタ内で 1 万台を超えるマシンをサポートします
エコシステム : mapreduce、ハイブ、ブタ、スクープなど

そのため、オフラインのコンピューティングとストレージとして Hadoop を選択し、オンラインのコンピューティングとストレージとして MySQL を選択できます。また、ラムダアーキテクチャから詳細を学ぶこともできます。

score 2 · Accepted Answer

もう 1 つの答えは適切ですが、なぜ Hadoop が MySQL Clusters よりもオフラインデータのクランチングに対してスケーラブルであるかを説明するものではありません。Hadoop は、データのシャーディングを完全に制御できるため、多数のマシンに分散する必要がある大規模なデータセットに対してより効率的です。

MySQL クラスターは自動シャーディングを使用し、データをランダムに分散するように設計されているため、1 台のマシンがそれ以上負荷を受けることはありません。一方、Hadoop ではデータパーティションを明示的に定義できるため、同時アクセスが必要な複数のデータポイントが同じマシン上にあるため、ジョブを完了するために必要なマシン間の通信量を最小限に抑えることができます。これにより、Hadoop は多くの場合、大量のデータセットの処理に適しています。

この質問への答えには、この違いがよく説明されています。

hadoop - ビッグデータを処理するための MySQL Cluster と Hadoop の比較

3 に答える 3

Related

Reference