問題タブ [amazon-data-pipeline]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

457 問題

0 投票する

3 に答える

982 参照

amazon-web-services - AWS datapipeline を使用して s3 アクセスログを処理する

私のユースケースは、S3 アクセスログ (これらの 18 フィールドを持つ) を定期的に処理し、RDS のテーブルにプッシュすることです。このタスクに AWS データパイプラインを使用して毎日実行し、前日のログを処理しています。

タスクを 2 つのアクティビティに分割することにしました。 1. シェルコマンドアクティビティ: s3 アクセスログを処理し、csv ファイルを作成します。 2. ハイブアクティビティ: csv ファイルからデータを読み取り、RDS テーブルに挿入します。

私の入力 s3 バケットには多くのログファイルがあるため、ステージング中のメモリ不足エラーが原因で最初のアクティビティが失敗します。ただし、すべてのログをステージングしたくはありません。前日のログをステージングするだけで十分です。インターネットで検索しましたが、解決策はありませんでした。どうすればこれを達成できますか? 私の解決策は最適なものですか？これよりも優れたソリューションはありますか? どんな提案も役に立ちます

前もって感謝します

2015-07-07T11:40:54.963

0 投票する

1 に答える

284 参照

amazon-web-services - aws パイプラインを使用して redshift テーブルをロードする際に既存のファイルを保持する

JSON S3ファイルからのデータを含むredshiftテーブルをロードするようにAWSパイプラインを構成しています。

私は RedshiftActivity を使用しており、KEEP_EXISTING ロードメソッドを設定しようとするまではすべて問題ありませんでした。ロードのたびにテーブルを切り捨てたくはありませんが、既存の情報を保持して新しいレコードを追加します。

Redshift アクティビティは、機能するためにテーブルで定義された PRIMARY KEY を必要とするようです (OK) ... DISTRIBUTION KEY の設定も要求されていますが、私は EVEN 配布に興味があり、DISTRIBUTION KEY は EVEN 配布スタイルとは別に機能しないようです.

配布キーを使用して EVEN 配布をシミュレートできますか?

ありがとう。

amazon-web-services amazon-redshift amazon-data-pipeline

2015-07-09T09:10:52.730

0 投票する

1 に答える

660 参照

python - Python スクリプトを使用した AWS ETL

Python を使用する AWS プラットフォームで基本的な ETL を作成しようとしています。S3 バケット (「A」と呼びましょう) には、gzip で圧縮された生のログファイルがたくさんあります。私がやりたいのは、定期的に（=データパイプライン）解凍し、すべての行の構造を再フォーマットするPythonスクリプトによって処理し、できればgzipとして別のS3バケット（「B」）に出力することですA の同じ gzip に由来する同じログファイルですが、これは必須ではありません。

私はそれを行う必要がある（標準入力から各行を受信する）必要があるPythonスクリプトを作成し、標準出力（または行が有効でない場合は標準エラー出力）に出力します。この場合、それを別のバケットに書きたいと思います、「C」)。

私はデータパイプラインをいじっていて、シェルコマンドジョブと、Python スクリプトでシーケンス処理するためのハイブジョブを実行しようとしました。EMR クラスターは作成、実行、終了し、失敗やエラーは発生しませんでしたが、ログも作成されず、何が問題なのかわかりません。また、処理後に元のログを削除し、送信先またはエラーのあるログバケットに書き込みたいと考えています。

誰もそのような構成の経験がありますか? とアドバイスの言葉？

python amazon-web-services amazon-s3 amazon-emr amazon-data-pipeline

2015-07-10T16:41:44.530

0 投票する

1 に答える

105 参照

hadoop - AWS EMR を介して Kinesis ストリームで Hadoop Pig スクリプトを実行する

AWS EMR で豚のスクリプトを使用して、キネシスストリームで一部のデータをバッチ処理しようとしています。ストリームデータをグループ化して s3 に移動するだけです。これを数時間ごとに実行しようとしています。最初は AWS Data Pipeline に非常に適しているように思えますが、kinesis チェックポイントに使用する反復回数を渡す方法がわかりません。数値をインクリメントして pig スクリプトに渡す方法はないようです。ここで例を見てきました。これには、常時稼働のクラスターと、反復回数を増やす crontab スクリプトが含まれています。不足している AWS Data Pipeline を使用してこれを達成する方法はありますか?

hadoop amazon-web-services amazon-emr amazon-kinesis amazon-data-pipeline

2015-08-12T18:44:41.023

0 投票する

1 に答える

1255 参照

java - データパイプラインの前提条件

json スクリプトで一連のアクティビティを実行しました。それに前提条件を追加する必要があります。json スクリプトで前提条件を使用する方法。

前提条件として、mysql db フィールドを確認する必要があります。'Y' としてフラグを立てると、実行を開始し、それ以外の場合は実行を停止する必要があります。

java python json amazon-data-pipeline

2015-09-09T10:15:05.217

1 2 3 4 5 6 7 8 9 10

問題タブ [amazon-data-pipeline]

amazon-web-services - AWS datapipeline を使用して s3 アクセス ログを処理する

amazon-web-services - aws パイプラインを使用して redshift テーブルをロードする際に既存のファイルを保持する

python - Python スクリプトを使用した AWS ETL

hadoop - AWS EMR を介して Kinesis ストリームで Hadoop Pig スクリプトを実行する

java - データ パイプラインの前提条件

Reference

amazon-web-services - AWS datapipeline を使用して s3 アクセスログを処理する

java - データパイプラインの前提条件