問題タブ [amazon-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-cloudformation - クラウド形成テンプレートの一部としてデータ パイプラインを使用できますか?
私のアプリには、S3
毎日のフィードを含むバケット、DynamoDB
このデータを格納する 2 つのテーブルELB
、JSON API をそのデータに公開するアプリケーション、data pipeline
および受信データを処理してテーブルにアップロードするフローがあります。
私のCloudFormation
テンプレートは現在、テーブルと ELB アプリを構築しています。パイプライン フローもテンプレートの一部にしたいと思います (したがって、たとえば、完全なステージング環境が一緒に構築されます)。
マニュアルでその参照を見つけることができませんでした。誰かがそれを行う方法を知っていますか、または公式にサポートされていないことを確認できますか?
ザック
amazon-web-services - AWS Datapipeline RedShiftCopyActivity - 「列」の指定方法
RedShiftCopyActivity とデータパイプラインを使用して、S3 から Redshift に一連の csv ファイルをコピーしようとしています。
csv 構造がテーブル構造と一致する限り、これは正常に機能します。私の場合、csv にはテーブルよりも少ない列があり、RedShiftCopyActivity は stl_load_errors で「区切り文字が見つかりません」というエラーで失敗します。
redshift copy コマンドの「columns」オプションを使用したいと思います。そうすれば機能させることができますが、redshift copy コマンドの列部分は RedShiftCopyActivity では利用できないようです。
誰でも何か提案はありますか?
すべてのヒントを歓迎します。
前もって感謝します。
ピーター
amazon-data-pipeline - 他の人の成功に関係なく、後に実行されるアクティビティ?
アクティビティ X があるとします。X が成功したか失敗したかに関係なく、アクティビティ Y を X に依存する (X が終了した後にのみ実行する) ように定義できますか?
これに対する私の具体的な使用例は次のとおりです。データを からS3
にインポートするアクティビティがありDynamoDB
ます。その前にのスループットShellCommandActivity
を増加させる がDynamoDB
あり、その後に別の を使用して通常に戻します。何らかの理由でインポート アクティビティが失敗した場合、スループットが低下することはありません。
他の解決策をいただければ幸いです。
amazon-web-services - Redshift の増分負荷
現在、Redshift へのデータのロードに取り組んでいます。ここにはさまざまなシナリオがあります。OLTP データベースがオンプレミスの SQL Server である場合、S3 経由で Redshift にデータをロードするのに役立つ Attunity などのツールを検討できます。Attunity は CDC においてスマートであり、トランザクション ログを読み取って変更を識別し、それに応じてターゲットに変更を適用できます。しかし、この種のツールは、ETL プロセス中に変換ロジックを適用するには不十分です。Attunity は SSIS や ODI に代わるものではありませんが、さまざまなソースからのデータの抽出と読み込みに適しています。したがって、変換を行うには、適切な ETL ツールが必要です。Redshift 内のステージング領域で Attunity を使用してデータをロードできます。ステージング領域から、別の ETL ツールまたはトリガーを使用してターゲット テーブルにデータをロードできます。Redshiftではトリガーがサポートされていないため、では、その ETL ツールは何でしょうか? ここでは、AWS Data Pipeline 以外は見つかりませんでした。ただし、Attunity と AWS Data Pipeline の 2 つのツールを使用すると、コストが高くなる可能性があります。他の代替方法はありますか?Data Pipeline がオンプレミスの SQL Server に接続できるとは考えていません。Amazonエコシステム専用です。
次に、オンプレミスの SQL Server が Amazon RDS にデプロイされたと考えてみましょう。その後、状況が異なる場合があります。Attunity と AWS Data Pipeline の 2 つのツールを使用して、上記と同じ ETL プロセスに従うことができます。しかし今回は、AWS Data Pipeline という 1 つのツールのみを使用する方が簡単です。AWS Data Pipeline は、すべてのシナリオを処理するのに十分な能力を備えていますか? トランザクションログを読み取れることがわかりません。しかし、増分負荷には他のアプローチを適用できるはずです。非常に一般的なアプローチは、各ソース テーブルで最終更新日列を考慮することです。次に、最後のロード時間から変更された RDS Sql Server テーブルの行を特定できます。ただし、変更されたデータを RDS から Redshift に直接取得することはできません。S3 または DynamoDB のいずれかを使用する必要があります。S3 をルートとして使用するように AWS Data Pipeline を作成できます。また頭痛のようです。もっと簡単な方法が他にあるかもしれません。繰り返しますが、AWS Data Pipeline は競争の激しい市場ではまったく新しいものです。このツールの非常に大きな制限は、AWS 以外のさまざまなソース (Salesforce、Oracle など) からデータをロードできないことです。AWS エコシステム内で問題なく、最小限のコストで完璧に機能する使いやすいツールは他にありますか?
amazon-web-services - Amazon Data Pipeline: SqlActivity でスクリプト引数を使用する方法は?
sqlActivity でスクリプト引数を使用しようとすると、次のようになります。
unload.sql スクリプトの内容は次のとおりです。
また :
プロセスは失敗します:
私が間違っていることは何ですか?
amazon-s3 - Data Pipeline を使用して 5 ギガを超えるファイルを AWS S3 に移動する
Java コードによって生成されたファイルがローカルに書き込まれ、Data Pipeline によって S3 にコピーされるという問題が発生しています。エラーはファイルサイズに言及しています。
マルチパートアップロードが必要な場合、パイプラインがそれを理解するだろうと私は考えていたでしょう. マルチパートアップロードを実際に使用するようにパイプラインを構成する方法があるのだろうか。それ以外の場合、S3 に依存しない現在の Java コードは、S3 に直接書き込むか、以前と同じようにしてからマルチパート アップロードを使用する必要があるためです。実際、コードは S3 に直接書き込むだけで、心配する必要はないと思いますアップロード中。
パイプラインがマルチパート アップロードを使用できるかどうか誰か教えてもらえますか。そうでない場合は、正しいアプローチがプログラムを S3 に直接書き込むか、ローカル ストレージに書き込み続けてから、同じプログラム内で別のプログラムを呼び出すかを提案できますか?マルチパートアップロードを行うパイプラインは?
amazon-web-services - AWS Datapipeline の Kinesis ストリームから読み取る Hive クエリの反復回数を提供する変数
出力が S3 バケットに書き込まれる Hive クエリを実行する AWS Datapipeline を作成しようとしています。その後、データは AWS Redshift クラスターの S3 バケットから移動されます。
Hive クエリは、入力として Kinesis ストリームを使用しています。Kinesis のチェックポイント機能を活用しようとしていて、ShellCommandActivity に変数を渡して、ハイブ スクリプトで反復回数を設定できるようにしたいと考えています。とにかく、datapipeline が実行されるたびに 1 ずつ増加する変数を持つことはできますか?
どんな援助も素晴らしいでしょう!