“amazon-data-pipeline”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

2867 参照

amazon-web-services - パラメータで手動でトリガーできる aws データパイプラインを作成することは可能ですか?

手動で実行できる AWS データパイプラインを作成することはできますか?それをトリガーするときに、パラメーターを渡して実行したいと考えています。

amazon-web-services amazon-data-pipeline

2015-03-19T13:13:18.403

0 投票する

2 に答える

220 参照

amazon-web-services - ShellCommandActivityで作成したS3データノードファイルをサーバー側で暗号化したい

stage = "true" で ShellCommandActivity を作成しました。シェルコマンドは新しいファイルを作成し、${OUTPUT1_STAGING_DIR} に保存します。この新しいファイルを S3 でサーバー側で暗号化する必要があります。

ドキュメントによると、s3 データノードで作成されたすべてのファイルは、デフォルトでサーバー側で暗号化されます。しかし、パイプラインが完了すると、暗号化されていないファイルが s3 に作成されます。S3データノードで明示的にs3EncryptionTypeをSERVER_SIDE_ENCRYPTIONとして設定しようとしましたが、それも役に立ちません。この新しいファイルを暗号化したい。

パイプラインの関連部分は次のとおりです。

2015-03-20T07:45:00.103

0 投票する

3 に答える

210 参照

postgresql - テーブルを削除する SQL コードを AWS Data Pipeline のどこに置くことができますか?

Redshift テーブルをデータパイプラインにドロップするには、SQL コードを追加する必要があります。それを入れることができる特定のフィールドはありますか？Create Table SQL フィールドに入れることはできますか?

postgresql amazon-web-services amazon-redshift amazon-data-pipeline

2015-03-25T23:21:48.320

0 投票する

2 に答える

3733 参照

amazon-web-services - AWS Data Pipeline は EC2 インスタンスをどのように実行しますか?

AWS Data Pipeline を構築しましたが、EC2 リソースの TerminateAfter フィールドが欠落しているという警告が表示され続けます。私の DataPipeline は、1 時間ごとに実行されるプロセス全体で何度も同じインスタンスを使用するように設計されています (パイプラインはまだ実行していません)。

したがって、Terminate Afterフィールドを 3 分に設定すると、EC2 インスタンスがスピンアップするたびに 3 分後に終了するかどうか疑問に思います。それとも、EC2 インスタンスはパイプラインで最後に使用されてから 3 分後に終了していますか?

amazon-web-services amazon-ec2 amazon-data-pipeline

2015-03-30T21:29:48.560

0 投票する

2 に答える

90 参照

amazon-web-services - 複数のオブジェクトが AWS データパイプラインの述語 (合計 2 つ) に一致します

AWS データパイプラインコンソールで、パイプライン定義ファイルをアップロードすると、常にこのエラーが発生します -

パイプラインの作成に失敗しました。データパイプラインでパイプラインを作成できませんでした: 複数のオブジェクトが述語に一致します (合計 2)。(サービス: null; ステータスコード: 0; エラーコード: null; リクエスト ID: null)

「アーキテクトからビルド」オプションを使用してパイプライン定義を作成しようとしました。それが機能した後、パイプライン定義をエクスポートし、「パイプラインのアップロード」で別のパイプラインを作成しようとしました。これは、作成したパイプラインにエラーがないことを確認するためだけに行いました。しかし、それでも同じエラーが発生しました。解決策はありますか？

amazon-web-services amazon-data-pipeline

2015-04-08T08:17:47.343

0 投票する

2 に答える

955 参照

batch-processing - Amazon Data Pipeline のパイプラインからパイプラインを呼び出す

職場の私のチームは現在、かなり高価な ETL ツールの代替品を探しており、この時点で、栄光のスケジューラーとして使用しています。ETL ツールが提供する統合はすべて、独自の Python コードを使用して改善したため、そのスケジューリング機能が本当に必要です。私たちが検討しているオプションの 1 つは、私が現在試験運用している Data Pipeline です。

したがって、私の問題は次のとおりです。製品と販売の 2 つのデータセットを読み込むとします。これらの各データセットを読み込むには、いくつかの手順が必要です (ソースデータを取得し、Python スクリプトを呼び出して変換し、Redshift に読み込みます)。ただし、マージンを計算するには製品コストなどが必要なため、販売が開始される前に製品をロードする必要があります。最初に製品を呼び出し、その正常な完了を待ってから販売を呼び出す "マスター" パイプラインを Data Pipeline に持つことは可能ですか? もしそうなら、どのように？Data Pipeline がこのタイプのワークフローに適していない場合は、他の製品の提案も受け付けています。助けに感謝します

batch-processing scheduler etl amazon-data-pipeline

2015-04-14T22:28:59.560

0 投票する

4 に答える

2061 参照

amazon-web-services - AWS Data Pipeline を使用して S3 と EC2 の間でファイルを転送する

S3 から EC2 Windows Server に TB のデータを転送したいのですが、基本的なAWS CLI コピーコマンドを使用すると数時間かかります。スピードアップを支援するために、 AWS Data Pipelineを利用したいと考えています。AWS Data Pipelineドキュメントのグラフィックは、データが少なくとも EC2 から S3 に流れることができることを示唆しているようです。

それでも、それがどのように行われるかを理解するのは難しいと感じています。私が見た最も近い例は、S3 にデータをコピーして戻す前に、S3 DataNodeから EC2 にデータを転送するShellCommandActivityを利用してデータをステージングするという概念です。

代わりに、既に実行中の Windows インスタンスで S3 からデータをコピーし、後でさらにデータを S3 にコピーしたいと考えています。

amazon-web-services amazon-ec2 amazon-s3 amazon-data-pipeline

2015-05-13T06:36:59.477

0 投票する

1 に答える

1434 参照

variables - 複数の入力がある AWS データパイプラインアクティビティ

Amazon AWS データパイプラインの一部として、ステージングされていない 2 つの S3 データノードを入力として使用するハイブアクティビティがあります。アクティビティに 2 つのスクリプト変数を設定し、それぞれが入力データノードを指すようにしたいのですが、正しい構文を取得できません。単一の入力では、次のように記述でき、問題なく動作します。

2 番目の入力を追加すると、以下のパイプライン定義でわかるように、入力の配列になっているため、それらを参照する方法の問題が発生します。基本的に、次のことを達成したいのですが、正しい構文がわかりません。

パイプライン定義のアクティビティ部分は次のとおりです。

テーブルをステージングしないままにし、Hive スクリプトでテーブルの作成を処理することを計画しています。これにより、各 Hive アクティビティをパイプライン自体と同様に分離して実行することが容易になります。

配列構文を使用するときに表示されるエラーは次のとおりです。

variables amazon-web-services input hive amazon-data-pipeline

2015-05-13T13:56:33.730

0 投票する

1 に答える

901 参照

amazon-web-services - AWS Data Pipeline RedshiftCopy アクティビティが適切なドライバーを見つけられない

AWS Data Pipeline で RedshiftCopy アクティビティをセットアップしましたが、次のエラーで失敗し続けます。

java.lang.RuntimeException: java.sql.SQLException: No suitable driver found for <REDACTED> at private.com.google.common.base.Throwables.propagate(Unknown Source) at amazonaws.datapipeline.database.ConnectionFactory.getConnection(ConnectionFactory.java:145) at amazonaws.datapipeline.database.ConnectionFactory.getRedshiftDatabaseConnection(ConnectionFactory.java:80) at amazonaws.datapipeline.database.ConnectionFactory.getConnection(ConnectionFactory.java:47) at amazonaws.datapipeline.database.ConnectionFactory.getConnectionWithCredentials(ConnectionFactory.java:230) at amazonaws.datapipeline.redshift.RedshiftActivityRunnerFactory$RedshiftActivityRunner.<init>(RedshiftActivityRunnerFactory.java:29) at amazonaws.datapipeline.redshift.RedshiftActivityRunnerFactory.create(RedshiftActivityRunnerFactory.java:48) at amazonaws.datapipeline.activity.RedshiftCopyActivity.runActivity(RedshiftCopyActivity.java:49) at amazona ..等

「runsOn」EC2 インスタンスは Data Pipeline で管理されるリソースであるため、Data Pipeline によってスピンアップされるインスタンスには必要なすべてのリソースがインストールされていると想定していたため、このエラーに混乱しています。

以前にこのエラーに遭遇した人はいますか? もしあれば、それを修正するために何をしましたか?

前もって感謝します。

amazon-web-services amazon-data-pipeline

2015-05-26T12:08:54.840

問題タブ [amazon-data-pipeline]

Reference