“amazon-data-pipeline”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2239 参照

amazon-cloudformation - クラウド形成テンプレートの一部としてデータパイプラインを使用できますか?

私のアプリには、S3毎日のフィードを含むバケット、DynamoDBこのデータを格納する 2 つのテーブルELB、JSON API をそのデータに公開するアプリケーション、data pipelineおよび受信データを処理してテーブルにアップロードするフローがあります。

私のCloudFormationテンプレートは現在、テーブルと ELB アプリを構築しています。パイプラインフローもテンプレートの一部にしたいと思います (したがって、たとえば、完全なステージング環境が一緒に構築されます)。

マニュアルでその参照を見つけることができませんでした。誰かがそれを行う方法を知っていますか、または公式にサポートされていないことを確認できますか?

ザック

amazon-cloudformation amazon-data-pipeline

2014-11-24T10:33:12.733

0 投票する

1 に答える

1401 参照

amazon-web-services - AWS Datapipeline RedShiftCopyActivity - 「列」の指定方法

RedShiftCopyActivity とデータパイプラインを使用して、S3 から Redshift に一連の csv ファイルをコピーしようとしています。

csv 構造がテーブル構造と一致する限り、これは正常に機能します。私の場合、csv にはテーブルよりも少ない列があり、RedShiftCopyActivity は stl_load_errors で「区切り文字が見つかりません」というエラーで失敗します。

redshift copy コマンドの「columns」オプションを使用したいと思います。そうすれば機能させることができますが、redshift copy コマンドの列部分は RedShiftCopyActivity では利用できないようです。

誰でも何か提案はありますか？

すべてのヒントを歓迎します。

前もって感謝します。

ピーター

2014-12-04T14:04:41.337

0 投票する

0 に答える

67 参照

amazon-data-pipeline - 他の人の成功に関係なく、後に実行されるアクティビティ?

アクティビティ X があるとします。X が成功したか失敗したかに関係なく、アクティビティ Y を X に依存する (X が終了した後にのみ実行する) ように定義できますか?

これに対する私の具体的な使用例は次のとおりです。データをからS3にインポートするアクティビティがありDynamoDBます。その前にのスループットShellCommandActivityを増加させるがDynamoDBあり、その後に別のを使用して通常に戻します。何らかの理由でインポートアクティビティが失敗した場合、スループットが低下することはありません。

他の解決策をいただければ幸いです。

amazon-data-pipeline

2014-12-05T13:56:56.367

0 投票する

2 に答える

2397 参照

amazon-web-services - Redshift の増分負荷

現在、Redshift へのデータのロードに取り組んでいます。ここにはさまざまなシナリオがあります。OLTP データベースがオンプレミスの SQL Server である場合、S3 経由で Redshift にデータをロードするのに役立つ Attunity などのツールを検討できます。Attunity は CDC においてスマートであり、トランザクションログを読み取って変更を識別し、それに応じてターゲットに変更を適用できます。しかし、この種のツールは、ETL プロセス中に変換ロジックを適用するには不十分です。Attunity は SSIS や ODI に代わるものではありませんが、さまざまなソースからのデータの抽出と読み込みに適しています。したがって、変換を行うには、適切な ETL ツールが必要です。Redshift 内のステージング領域で Attunity を使用してデータをロードできます。ステージング領域から、別の ETL ツールまたはトリガーを使用してターゲットテーブルにデータをロードできます。Redshiftではトリガーがサポートされていないため、では、その ETL ツールは何でしょうか? ここでは、AWS Data Pipeline 以外は見つかりませんでした。ただし、Attunity と AWS Data Pipeline の 2 つのツールを使用すると、コストが高くなる可能性があります。他の代替方法はありますか？Data Pipeline がオンプレミスの SQL Server に接続できるとは考えていません。Amazonエコシステム専用です。

次に、オンプレミスの SQL Server が Amazon RDS にデプロイされたと考えてみましょう。その後、状況が異なる場合があります。Attunity と AWS Data Pipeline の 2 つのツールを使用して、上記と同じ ETL プロセスに従うことができます。しかし今回は、AWS Data Pipeline という 1 つのツールのみを使用する方が簡単です。AWS Data Pipeline は、すべてのシナリオを処理するのに十分な能力を備えていますか? トランザクションログを読み取れることがわかりません。しかし、増分負荷には他のアプローチを適用できるはずです。非常に一般的なアプローチは、各ソーステーブルで最終更新日列を考慮することです。次に、最後のロード時間から変更された RDS Sql Server テーブルの行を特定できます。ただし、変更されたデータを RDS から Redshift に直接取得することはできません。S3 または DynamoDB のいずれかを使用する必要があります。S3 をルートとして使用するように AWS Data Pipeline を作成できます。また頭痛のようです。もっと簡単な方法が他にあるかもしれません。繰り返しますが、AWS Data Pipeline は競争の激しい市場ではまったく新しいものです。このツールの非常に大きな制限は、AWS 以外のさまざまなソース (Salesforce、Oracle など) からデータをロードできないことです。AWS エコシステム内で問題なく、最小限のコストで完璧に機能する使いやすいツールは他にありますか?

amazon-web-services amazon-s3 amazon-redshift amazon-data-pipeline attunity

2014-12-14T14:11:51.070

0 投票する

3 に答える

6563 参照

amazon-web-services - Amazon Data Pipeline: SqlActivity でスクリプト引数を使用する方法は?

sqlActivity でスクリプト引数を使用しようとすると、次のようになります。

unload.sql スクリプトの内容は次のとおりです。

また：

プロセスは失敗します:

私が間違っていることは何ですか？

amazon-web-services amazon-s3 amazon-redshift amazon-data-pipeline

2014-12-15T09:49:38.303

0 投票する

2 に答える

900 参照

amazon-s3 - Data Pipeline を使用して 5 ギガを超えるファイルを AWS S3 に移動する

Java コードによって生成されたファイルがローカルに書き込まれ、Data Pipeline によって S3 にコピーされるという問題が発生しています。エラーはファイルサイズに言及しています。

マルチパートアップロードが必要な場合、パイプラインがそれを理解するだろうと私は考えていたでしょう. マルチパートアップロードを実際に使用するようにパイプラインを構成する方法があるのだろうか。それ以外の場合、S3 に依存しない現在の Java コードは、S3 に直接書き込むか、以前と同じようにしてからマルチパートアップロードを使用する必要があるためです。実際、コードは S3 に直接書き込むだけで、心配する必要はないと思いますアップロード中。

パイプラインがマルチパートアップロードを使用できるかどうか誰か教えてもらえますか。そうでない場合は、正しいアプローチがプログラムを S3 に直接書き込むか、ローカルストレージに書き込み続けてから、同じプログラム内で別のプログラムを呼び出すかを提案できますか?マルチパートアップロードを行うパイプラインは?

amazon-s3 amazon-data-pipeline

2015-01-20T23:46:06.037

0 投票する

0 に答える

186 参照

amazon-web-services - AWS Datapipeline の Kinesis ストリームから読み取る Hive クエリの反復回数を提供する変数

出力が S3 バケットに書き込まれる Hive クエリを実行する AWS Datapipeline を作成しようとしています。その後、データは AWS Redshift クラスターの S3 バケットから移動されます。

Hive クエリは、入力として Kinesis ストリームを使用しています。Kinesis のチェックポイント機能を活用しようとしていて、ShellCommandActivity に変数を渡して、ハイブスクリプトで反復回数を設定できるようにしたいと考えています。とにかく、datapipeline が実行されるたびに 1 ずつ増加する変数を持つことはできますか?

どんな援助も素晴らしいでしょう！

amazon-web-services hiveql amazon-emr amazon-data-pipeline amazon-kinesis

2015-01-28T20:01:44.017

問題タブ [amazon-data-pipeline]

Reference