EFS マウント ファイルで ETL ジョブを実行できるかどうかを知りたいのですが、できる場合はどうすればよいですか? Hive またはその他のサービスを使用していますか? 私たちの目標は、1 つのマウント ポイント内のすべてのファイルを 1 つのファイルに減らし、その 1 つのファイルを s3 に保存して処理を改善することです。
1 に答える
EFS 自体には、本質的に特定のデータ ウェアハウス製品が含まれているわけではありません。データ ウェアハウジングと ETL については、AWS 環境で動作するものを使用したいものを選択できます。
あなたの問題について:私が正しく理解していれば、現在EFSマウントにあるすべてのファイルを連結または何らかの方法で単一のファイルに結合し、それをS3に保存したいと考えています。
持っているデータの種類や、結合するファイルの種類については言及していません。それによって、これをどのように行うかが大きく異なります。したがって、一般的な提案を行う必要があります。さまざまな種類のデータ、さまざまなデータベースの SQL テーブル、ドキュメント、SQL 以外のデータがある場合。次に、そのデータを結合する方法を決定する必要があります。そのためには、生データに対応できるデータ統合ソリューションを検討することになります。
Amazon には、Redshift、Athena、Snowflake、および ETL ソリューションの Glue など、プロセスを支援するいくつかの異なる製品があります。製品の追加は、会社のニーズと予算によって異なります。
したがって、より柔軟なデータ統合アプローチは、ETL の代わりに ELT (抽出、読み込み、変換) を使用することです。基本的に、S3 インスタンス上に適切なファイルを作成します。次に、EFS で各ファイルを一度に 1 つずつ抽出し、S3 ファイルにロードします。次に、S3 ファイルのデータをクエリするときに、クエリ結果を表示する前に必要な変換を実行します。違いをより詳細に説明する記事は次のとおりです: https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how .
オプションを調査したい場合は、Talend、Hadoop/Hive/Spark、Terradata、Informatica など、ELT プロセスをサポートするベンダーがいくつかあります。