Data Lakeという新しい用語を耳にしました。私はググってそれを得た
データ レイクは、大規模なストレージ リポジトリおよび処理エンジンです。データレイクは、「あらゆる種類のデータのための大容量ストレージ、巨大な処理能力、および事実上無制限の同時タスクまたはジョブを処理する機能」を提供します。
データ レイクという用語は、Hadoop 指向のオブジェクト ストレージに関連付けられることがよくあります。このようなシナリオでは、組織のデータが最初に Hadoop プラットフォームに読み込まれ、次に商用コンピューターの Hadoop のクラスター ノードにあるデータにビジネス分析とデータ マイニング ツールが適用されます。
同じことが Hadoop によって行われます。ストレージ用の HDFS とコンピューティング用の MapReduce があります。Hadoop と Data lake について少し混乱しています。両者の違いは何ですか。それらが同じである場合、この用語が発生する理由。または、データレイクを定義する方法。