hadoop - Hadoop 対データレイク

Question

Data Lakeという新しい用語を耳にしました。私はググってそれを得た

データレイクは、大規模なストレージリポジトリおよび処理エンジンです。データレイクは、「あらゆる種類のデータのための大容量ストレージ、巨大な処理能力、および事実上無制限の同時タスクまたはジョブを処理する機能」を提供します。

データレイクという用語は、Hadoop 指向のオブジェクトストレージに関連付けられることがよくあります。このようなシナリオでは、組織のデータが最初に Hadoop プラットフォームに読み込まれ、次に商用コンピューターの Hadoop のクラスターノードにあるデータにビジネス分析とデータマイニングツールが適用されます。

同じことが Hadoop によって行われます。ストレージ用の HDFS とコンピューティング用の MapReduce があります。Hadoop と Data lake について少し混乱しています。両者の違いは何ですか。それらが同じである場合、この用語が発生する理由。または、データレイクを定義する方法。

score 2 · Accepted Answer

概念 (データレイク) を、それらを実装するために使用できるフレームワーク (Hadoop) と混同していますが、これらの用語は互いに密接に関連しているため、理解できます。

最初のデータレイクの一部はオンプレミスの Hadoop を使用して構築されたため、Hadoop はデータレイクと関連付けられることがよくあります。ただし、データレイクは単なるアーキテクチャの設計パターンです。データレイクは、あらゆる種類のスケーラブルなオブジェクトストレージ (たとえば、Azure Data Lake や AWS S3 など) を使用して、Hadoop の外部に構築できます。

このサイトは、 Hadoop と他の実装について説明するデータレイクの歴史など、データレイクの概要を説明するのに非常に優れています。これらの用語がどのように結びついているかについても説明した別の記事を次に示します。

hadoop - Hadoop 対データレイク

7 に答える 7

Related

Reference