hadoop - データレイクをゼロから構築する

Question

「データレイク」をゼロから構築しようとしています。データレイクの仕組みとその目的を理解しています。それはすべてインターネット上にあります。しかし、どのようにゼロから構築するかという問題が発生した場合、ソースはありません。私は理解したい:

データウェアハウス + Hadoop = データレイク

Hadoop を実行し、Hadoop にデータを取り込む方法を知っています。オンプレミスデータレイクのサンプルを構築して、マネージャーのデモを行いたいと考えています。どんな助けでも大歓迎です。

score 0 · Accepted Answer

Hadoop クラスターをデータレイクにするには、構造化データと非構造化データが必要です。

そのため、非構造化データを取得して構造化データに変換する ETL パイプラインが必要になります。製品レビューまたは同様のものは、非構造化データを提供します。これを (例として) Hive で使用可能なものに変換すると、構造化データが得られます。

データを取得するにはhttps://opendata.stackexchange.com/を参照し、データをクレンジングする方法については Google Hadoop ETL を参照してください。パイプラインをどのように作成するか (Spark または MapReduce) は、あなた次第です。

score 0 · Accepted Answer

AWS サービスを使用してデータレイクを構築できます。これを行う簡単な方法は、AWS CloudFormation テンプレートを使用してソリューションを構成することです。これには、無制限のデータストレージ用の Amazon S3、認証用の Amazon Cognito、強力な検索機能用の Amazon Elasticsearch、マイクロサービス用の AWS Lambda、および AWS Glue などの AWS サービスが含まれます。データ転送、およびデータ分析用の Amazon Athena です。次の図は、AWS のサービスを使用して AWS でデータレイクを構築するための完全なアーキテクチャを表しています。

この記事を参照してください: https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

hadoop - データレイクをゼロから構築する

2 に答える 2

Related

Reference