「データレイク」をゼロから構築しようとしています。データレイクの仕組みとその目的を理解しています。それはすべてインターネット上にあります。しかし、どのようにゼロから構築するかという問題が発生した場合、ソースはありません。私は理解したい:
データ ウェアハウス + Hadoop = データレイク
Hadoop を実行し、Hadoop にデータを取り込む方法を知っています。オンプレミス データ レイクのサンプルを構築して、マネージャーのデモを行いたいと考えています。どんな助けでも大歓迎です。
「データレイク」をゼロから構築しようとしています。データレイクの仕組みとその目的を理解しています。それはすべてインターネット上にあります。しかし、どのようにゼロから構築するかという問題が発生した場合、ソースはありません。私は理解したい:
データ ウェアハウス + Hadoop = データレイク
Hadoop を実行し、Hadoop にデータを取り込む方法を知っています。オンプレミス データ レイクのサンプルを構築して、マネージャーのデモを行いたいと考えています。どんな助けでも大歓迎です。
Hadoop クラスターをデータ レイクにするには、構造化データと非構造化データが必要です。
そのため、非構造化データを取得して構造化データに変換する ETL パイプラインが必要になります。製品レビューまたは同様のものは、非構造化データを提供します。これを (例として) Hive で使用可能なものに変換すると、構造化データが得られます。
データを取得するにはhttps://opendata.stackexchange.com/を参照し、データをクレンジングする方法については Google Hadoop ETL を参照してください。パイプラインをどのように作成するか (Spark または MapReduce) は、あなた次第です。
AWS サービスを使用してデータレイクを構築できます。これを行う簡単な方法は、AWS CloudFormation テンプレートを使用してソリューションを構成することです。これには、無制限のデータ ストレージ用の Amazon S3、認証用の Amazon Cognito、強力な検索機能用の Amazon Elasticsearch、マイクロサービス用の AWS Lambda、および AWS Glue などの AWS サービスが含まれます。データ転送、およびデータ分析用の Amazon Athena です。次の図は、AWS のサービスを使用して AWS でデータ レイクを構築するための完全なアーキテクチャを表しています。
この記事を参照してください: https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e