問題タブ [aws-glue]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
177 参照

amazon-web-services - 同じツールですべてのデータ操作を同期

私の会社では、Pentaho Kettle で ETL ジョブを毎日実行しています (私たちが持っているすべてのデータには 1 台のマシンで十分です)。つまり、次のことを意味します。

  • さまざまな、主に関係データベース、スプレッドシート、および API からのデータの読み取り
  • 変換の適用、Redshift へのデータの挿入
  • 外部 SAAS ツールへの API 呼び出しの実行

より高度なツールでやり直すことを計画しています。これにより、次のことが可能になります。

  • dw を 1 日 1 回よりも頻繁に更新する
  • 私たちが使用するSAAS APIへのデータの取得とプッシュが簡単になります(PentahoでJSONを処理して構成するのは面倒です)
  • ワークフローで他のワークロードをトリガーできるようにする (Python スクリプトなど)
  • EC2 マシンで実行されている機械学習パイプラインを同期する
  • 1 年で 5 倍のデータ スケールに備える (1 台のマシンでは不十分な場合があります)

私の頭に浮かぶのは、ワークフロー マネージャーとしての Luigi または Airflow であり、Python を使用してコード ベースの ETL を実行しているのでしょうか。インフラストラクチャ全体が AWS クラウド上にあるため、AWS Glue もオプションとして表示されるようになりました (これが etl 専用なのか、それとも含める予定の他のプロセスにも使用できるのかはわかりません)。

他の解決策はありますか?これらを使用した経験のある人はいますか (特に、将来のスパーク/キネシス ワークロードでトリガーされる可能性のある redshift、s3 との連携方法)?

はいの場合、使用するライブラリは何ですか?また、開始して学習するのに適した場所は何ですか?

0 投票する
3 に答える
3734 参照

amazon-web-services - AWS Redshift から S3 への AWS Glue ETL ジョブが失敗する

Redshift から S3 へのデータを ETL する AWS Glue サービスを試しています。クローラーは正常に実行され、データ カタログにメタ テーブルが作成されますが、(AWS によって生成された) ETL ジョブを実行すると、約 20 分後に「リソースを利用できません」というメッセージが表示されて失敗します。

Cloudwatch で作成された AWS グルー ログまたはエラー ログが表示されません。それらを表示しようとすると、「ログ ストリームが見つかりません。ログ ストリーム jr_xxxxxxxxxx が見つかりませんでした。正しく作成されたかどうかを確認し、再試行してください。」と表示されます。

この問題を解決するためのガイダンスを提供していただければ幸いです。

0 投票する
1 に答える
1843 参照

amazon-web-services - AWS Glue S3 VPC エンドポイント ポリシーの問題

Redshift クラスターからデータをアンロードするために AWS Glue サービスの S3 VPC エンドポイントを作成すると、ETL ジョブは、VPC エンドポイント ポリシーが「フル アクセス」に設定されている場合にのみ機能します。

すなわち

ポリシーを「カスタム」に設定し、以下のように変更した場合は動作しません。

ETL ジョブでは、ETL スクリプトと一時ファイルを保存する場所として examplebucket を指定したため、ポリシーがカスタムに設定されている場合にのみ ETL ジョブが失敗する理由を理解するのは難しいと思います。Glue は、ジョブで指定されたバケット以外の別の S3 リソースにアクセスしようとしますか?