amazon-s3 - Athena を使用した S3 バケット全体のクエリ

Question

私はデータレイクを理解しようとしていますが、ほとんどの例は単純なユースケースのみを示しています。私が理解したいのは、事実上「結合クエリ」です。

たとえば、製品データ (S3-Product-Data にアップロード) を含むファイルと、製品の年間売上 (S3-Product-Sales にアップロード) を含むデータベースがあります。AWS Lakes / Athena は、これら 2 つの環境で実行されるクエリをどのように作成しますか?

もちろん、それらをリンクする何かが必要になります。クエリがどのように見えるか、また、Athena がデータをマージする (そしてパフォーマンスを向上させる) ために内部で何を行うのかはわかりません。

score 0 · Accepted Answer

データベースにあるデータについては、csv ファイルでデータを抽出し、別の s3 バケットに入れてください。次に、この s3 バケットをクロールするようにグルークローラーを構成し、テーブルを作成します。次に、既存の athena テーブルと新しいテーブルを結合できます。

2 に答える 2