16

Data Lakeという新しい用語を耳にしました。私はググってそれを得た

データ レイクは、大規模なストレージ リポジトリおよび処理エンジンです。データレイクは、「あらゆる種類のデータのための大容量ストレージ、巨大な処理能力、および事実上無制限の同時タスクまたはジョブを処理する機能」を提供します。

データ レイクという用語は、Hadoop 指向のオブジェクト ストレージに関連付けられることがよくあります。このようなシナリオでは、組織のデータが最初に Hadoop プラットフォームに読み込まれ、次に商用コンピューターの Hadoop のクラスター ノードにあるデータにビジネス分析とデータ マイニング ツールが適用されます。

同じことが Hadoop によって行われます。ストレージ用の HDFS とコンピューティング用の MapReduce があります。Hadoop と Data lake について少し混乱しています。両者の違いは何ですか。それらが同じである場合、この用語が発生する理由。または、データレイクを定義する方法。

4

7 に答える 7

2

概念 (データ レイク) を、それらを実装するために使用できるフレームワーク (Hadoop) と混同していますが、これらの用語は互いに密接に関連しているため、理解できます。

最初のデータ レイクの一部はオンプレミスの Hadoop を使用して構築されたため、Hadoop はデータ レイクと関連付けられることがよくあります。ただし、データ レイクは単なるアーキテクチャの設計パターンです。データ レイクは、あらゆる種類のスケーラブルなオブジェクト ストレージ (たとえば、Azure Data Lake や AWS S3 など) を使用して、Hadoop の外部に構築できます。

このサイトは、 Hadoop と他の実装について説明するデータ レイクの歴史など、データ レイクの概要を説明するのに非常に優れています。これらの用語がどのように結びついているかについても説明した別の記事を次に示します。

于 2020-02-20T19:35:39.900 に答える