問題タブ [aws-glue]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS Glue: ETL ジョブの DPU の数を減らす方法
料金に関する AWS Glue のドキュメント:
Glue ETL ジョブには、最低 2 つの DPU が必要です。デフォルトでは、AWS Glue は各 ETL ジョブに 10 DPU を割り当てます。DPU 時間あたり 0.44 USD が 1 分単位で請求され、1 分単位で切り上げられます。各 ETL ジョブの最小期間は 10 分です。
ETL ジョブに割り当てられる DPU の数を減らしたいと考えています。Glue コンソールでこのオプションを検索しました。しかし、私はそれを見つけられませんでした。どうすればよいか教えてください。
ありがとう
amazon-web-services - MS SQL Server RDS への Glue 接続の作成に関する問題
ここで回答されたすべての質問を読みました。そのうちの 5 つです。そして、それらはすべて、現在利用可能な AWS 製品について古くなっています。
そのため、AWS の初心者として、自分の問題を解決する方法、または AWS ソリューションのみを使用して問題を解決するための最良の方法を知りたいと考えています。第三者を避けたい。私がググったアプローチの1つを引用することはわかっていますが、それを参照するためだけです。
とにかく、私には達成すべき目標があり、これは基本的に SQL Server 2012 Integrations Services を AWS 製品のみを使用するものに置き換えることです。現在、私は FTP サーバーにアクセスして、一連の CSV ファイルをドライブにダウンロードし、それらを読み取り、データセットに変換して、指定したテーブルにロードしています。このプロセスは、毎日 3 回実行されるようにスケジュールされています。
私の最初の提案は、ファイルを S3 にアップロードし、AWS Glue Crawlers を使用してファイルをクロールし、自分で作成した AWS Glue Data Catalog を ETL で RDS に入力することでした。これまでのところ、FTP を接続して S3 にアップロードする Lambda 関数を実現できました。また、AWS Athena を使用してデータを取得し、すべてが正常に機能しているかどうかを確認することもできました。
しかし今、私は ETL を作成してテーブルを RDS にコピー/作成し、データを書き込むのに苦労しています。同じ RDS VPC、サブネット、およびセキュリティ グループの下に My Glue 接続を作成しました。また、セキュリティ グループには、どこからでも受信するすべての TCP があります (私はこれを離れません。これはテストのためだけです)。JDBC を使用しています。次の JDBC URL を記述します。
AWS Glue 内で「接続のテスト」を使用して作成した接続をテストでき、問題なく動作しました。しかし、ジョブ チュートリアルを使用してジョブを作成し、それを実行すると、ログ エラー内に次のように表示されます。
Amazon RDSオプションを使用して接続を作成しようとしましたが、インスタンスを選択した後の 2 番目の画面で次のエラーが表示されます。
IAM を確認したところ、AWS サービス内にAWSGlueServiceRoleDefaultロールがあります:ドキュメントでスクリプト化されているように、AWS 管理ポリシーのグルー信頼サービスとAWSGlueServiceRoleです。
不足しているもの、または機能させるために修正する方法を知りたいです。または、私の目標を達成するためのより良いアプローチがあるとしても。
amazon-web-services - aws Glue Script からストアド プロシージャを呼び出す
ETL ジョブが完了した後、AWS Glue スクリプトでストアド プロシージャを呼び出す最良の方法は何ですか?
PySpark を使用して S3 からデータを取得し、ステージング テーブルに格納しています。このプロセスの後、ストアド プロシージャを呼び出す必要があります。このストアド プロシージャは、ステージング テーブルから適切な MDS テーブルにデータをロードします。
ETL ジョブが完了した後にストアド プロシージャを呼び出す必要がある場合、最善の方法は何ですか? AWSラムダを検討すると、ETLの後にラムダに通知できる方法はありますか.