問題タブ [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
180 参照

elastic-map-reduce - データ パイプライン経由で起動された EMR クラスターのインスタンス ロールを設定する方法を教えてください。

データ パイプラインを介して実行しているクラスターにインスタンス ロールをアタッチしようとしています。書き込み権限が必要な独自のマッパー スクリプトを実行したいと考えていますDynamoDB(「通常の」HIVE アップロードではうまくいきません)。

API ドキュメントを調べたところ、EMR はマシンのインスタンス ロールを指定できますが、データ パイプライン API ではサポートされていないようです。

これを確認するためにここに尋ねて、他の解決策があるかどうか聞いてみたい..

0 投票する
1 に答える
863 参照

mysql - AWS データ パイプライン - 外部ソースからデータを取得しますか?

AWS データ パイプラインを使用して、外部でホストされている MySQL データソースから RDS MySQL インスタンスにデータをプルしようとしています。

これは可能ですか?どのように構成できますか? ドキュメントでこれについて何も見つかりません。

それが不可能な場合、より良いオプションはありますか? または、外部サーバーから RDS インスタンスへの手動プッシュを設定する方がよいでしょうか?

0 投票する
2 に答える
1000 参照

amazon-redshift - 主キーが見つからないため、Amazonパイプラインを使用したredshiftコピーが失敗する

Redshift にロードしようとしているファイルのセットが S3 にあります。私はそれを行うためにAmazonデータパイプラインを使用しています。ウィザードはクラスター、データベース、およびファイル形式の情報を取得しましたが、テーブルの既存のフィールドを保持するには主キーが必要であるというエラーが表示されます ( KEEP_EXISTING)

私のテーブルスキーマは次のとおりです。

そのため、テーブルに複合主キーを追加して、それが機能するかどうかを確認しましたが、同じエラーが発生します。

そのため、ID 列を最後の列として追加し、それを主キーにすることにしましたが、COPY 操作では、その ID 列の入力ファイルに値が必要であり、あまり意味がありませんでした。

理想的には、主キーまたは複合主キーなしで機能させたい

何か案は?

ありがとう

0 投票する
1 に答える
230 参照

amazon-redshift - amazon datapipeline の redshift コピーの sqlactivity がファイル名のワイルドカード文字を選択しない

Amazon データ パイプラインで sqlActivity を使用して、データを redshift テーブルにコピーしています。
part-00000.gz のようなファイル名を 1 つ指定すると、スクリプトは正常に実行されますが、ワイルドカード.gz を指定してディレクトリ内のすべてのファイルを選択すると、ワイルドカードが実際にはファイル名と見なされるエラーが発生するため、ファイル名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/ .gz が存在しません

取引を開始します。一時テーブル ip_to_filename_staging_table (bens_analytics_ip_to_filename など) を作成します。

's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 資格情報 'aws_access_key_id=<>;aws_secret_access_key=<>' gzip 区切り文字 '\t' COMPUPDATE OFF から ip_to_filename_staging_table をコピーしますSTATUPDATE オフ;

bens_analytics_ip_to_filename を使用して ip_to_filename_staging_table から削除します。

bens_analytics_ip_to_filename に挿入する select * from ip_to_filename_staging_table;

テーブル ip_to_filename_staging_table を削除します。取引を終了します。

0 投票する
2 に答える
1751 参照

oracle - 大量のデータを AWS Oracle RDS インスタンスから S3 に移動する方法は?

AWS Oracle RDS インスタンスの 1 つのテーブル (最大 70 億行) に膨大な量のデータがあります。最終結果は、EMR に読み込むことができるように、S3 に格納されたパイプ区切りの値としてそのテーブルが必要です。これは基本的に 1 回限りのことなので、正確に機能する必要があり、何かがタイムアウトしたためにアップロード全体を再実行する必要はありません。それがどのように機能するか、セットアップがどれほど難しい/面倒かはあまり気にしません。私は Oracle ボックスで root アクセス権を持っています。Data Pipelines を見ましたが、MySQL のみをサポートしているようで、Oracle と連携する必要があります。また、テーブル全体を Oracle インスタンスの CSV にダンプしてからアップロードするのに十分なハード ドライブ容量がありません。どうすればこれを行うことができますか?

0 投票する
4 に答える
3352 参照

export - AWS DynamoDB から S3 への自動エクスポートが「role/DataPipelineDefaultRole is invalid」で失敗する

このページの段階的な手順に正確に従って、DynamoDB テーブルの 1 つのコンテンツを S3 バケットにエクスポートしようとしています。指示どおりにパイプラインを作成しましたが、実行できません。エクスポートを行うための EC2 リソースの特定/実行に問題があるようです。AWS コンソールから EMR にアクセスすると、次のようなエントリが表示されます。

このメッセージが表示されるのはなぜですか? パイプラインを実行するために何か他のものをセットアップ/構成する必要がありますか?

更新: IAM->RolesAWS コンソールの下で、これは次のように表示されDataPipelineDefaultResourceRoleます:

そしてこれはDataPipelineDefaultRole

これらを何らかの形で変更する必要がありますか?