問題タブ [data-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - ファイルの Azure Lake から Lake への転送
私の会社には 2 つの Azure 環境があります。最初のものは一時的な環境であり、再利用されている/廃止されている/よくわかりません。私が知っているのは、ある環境の 1 つのデータ レイクから別の環境のデータ レイクにファイルを取得する必要があるということだけです。私はadlcopyとazcopyを見てきましたが、どちらも私が必要とすることをしているようには見えません。以前にこれに遭遇した人はいますか? もしそうなら、何を使用して解決しましたか?
amazon-web-services - Terraform : 個別のモジュール VS 1 つの大きなプロジェクト
私は、1VPC (+ サブネット、セキュリティ グループ、インターネット ゲートウェイなど)、S3 バケット、EMR クラスター、Redshift、ElasticSearch、いくつかの Lambda 関数、API ゲートウェイ、RDS など、多くのサービスで構成される Datalake プロジェクトに取り組んでいます。
VPC + サブネットと S3 バケットのように、一部のリソースは一度だけ作成され、将来変更されないため、「静的」であると言えます。
他のリソースは、開発および運用プロジェクトのライフサイクル中に変更されます。
私の質問は、プロジェクトの構造を管理する最良の方法は何ですか?
私は最初にこのように始めました:
したがって、この方法を実行するだけで、terraform apply
すべてのサービスがデプロイされます。
2番目のオプション(一部の開発者がそれを使用しているのを見ました)は、各サービスが個別のフォルダーにあり、起動したいサービスのフォルダーのみに移動して実行することですterraform apply
このプロジェクトには 2 人から 4 人の開発者が参加し、一部の開発者は別のリソースでのみ作業します。
どのような戦略に従うようにアドバイスしますか? それとも、他のアイデアやベストプラクティスがありますか?
ご協力いただきありがとうございます。
amazon-s3 - 事前にクエリがわからない場合、AWS Athena (Presto) のデータをどのように分割すればよいですか?
クエリを実行する必要があるビッグ データ イベント (TB) があり、それを正しく分割しようとしています。
私にはクライアントがあり、各クライアントには多くのゲームがあります。問題は、クエリを実行するフィールドがあり、一部のイベントでは null になる可能性があるため、パーティションとして使用できないことです (例: セグメント)。
私は2つの戦略について考えました:
- 分割: クライアント/ゲーム/日付 (S3)
- クライアントまたはゲームごとに異なるテーブル、および日付のみで分割します。異なるバケット。
オプション 1 は単純です。where 句でフィルタリングします。オプション 2 には、共用体が必要です。
そのようなデータを分割する正しい方法は何ですか? 正しいとは、最も効率的で費用対効果が高いという意味ですか?
よろしく、イド
amazon-s3 - Athena を使用した S3 バケット全体のクエリ
私はデータ レイクを理解しようとしていますが、ほとんどの例は単純なユース ケースのみを示しています。私が理解したいのは、事実上「結合クエリ」です。
たとえば、製品データ (S3-Product-Data にアップロード) を含むファイルと、製品の年間売上 (S3-Product-Sales にアップロード) を含むデータベースがあります。AWS Lakes / Athena は、これら 2 つの環境で実行されるクエリをどのように作成しますか?
もちろん、それらをリンクする何かが必要になります。クエリがどのように見えるか、また、Athena がデータをマージする (そしてパフォーマンスを向上させる) ために内部で何を行うのかはわかりません。