問題タブ [amazon-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS datapipeline を使用して s3 アクセス ログを処理する
私のユースケースは、S3 アクセス ログ (これらの 18 フィールドを持つ) を定期的に処理し、RDS のテーブルにプッシュすることです。このタスクに AWS データ パイプラインを使用して毎日実行し、前日のログを処理しています。
タスクを 2 つのアクティビティに分割することにしました。 1. シェル コマンド アクティビティ: s3 アクセス ログを処理し、csv ファイルを作成します。 2. ハイブ アクティビティ: csv ファイルからデータを読み取り、RDS テーブルに挿入します。
私の入力 s3 バケットには多くのログ ファイルがあるため、ステージング中のメモリ不足エラーが原因で最初のアクティビティが失敗します。ただし、すべてのログをステージングしたくはありません。前日のログをステージングするだけで十分です。インターネットで検索しましたが、解決策はありませんでした。どうすればこれを達成できますか? 私の解決策は最適なものですか?これよりも優れたソリューションはありますか? どんな提案も役に立ちます
前もって感謝します
amazon-web-services - aws パイプラインを使用して redshift テーブルをロードする際に既存のファイルを保持する
JSON S3ファイルからのデータを含むredshiftテーブルをロードするようにAWSパイプラインを構成しています。
私は RedshiftActivity を使用しており、KEEP_EXISTING ロード メソッドを設定しようとするまではすべて問題ありませんでした。ロードのたびにテーブルを切り捨てたくはありませんが、既存の情報を保持して新しいレコードを追加します。
Redshift アクティビティは、機能するためにテーブルで定義された PRIMARY KEY を必要とするようです (OK) ... DISTRIBUTION KEY の設定も要求されていますが、私は EVEN 配布に興味があり、DISTRIBUTION KEY は EVEN 配布スタイルとは別に機能しないようです.
配布キーを使用して EVEN 配布をシミュレートできますか?
ありがとう。
python - Python スクリプトを使用した AWS ETL
Python を使用する AWS プラットフォームで基本的な ETL を作成しようとしています。S3 バケット (「A」と呼びましょう) には、gzip で圧縮された生のログ ファイルがたくさんあります。私がやりたいのは、定期的に(=データパイプライン)解凍し、すべての行の構造を再フォーマットするPythonスクリプトによって処理し、できればgzipとして別のS3バケット(「B」)に出力することですA の同じ gzip に由来する同じログ ファイルですが、これは必須ではありません。
私はそれを行う必要がある(標準入力から各行を受信する)必要があるPythonスクリプトを作成し、標準出力(または行が有効でない場合は標準エラー出力)に出力します。この場合、それを別のバケットに書きたいと思います、「C」)。
私はデータ パイプラインをいじっていて、シェル コマンド ジョブと、Python スクリプトでシーケンス処理するためのハイブ ジョブを実行しようとしました。EMR クラスターは作成、実行、終了し、失敗やエラーは発生しませんでしたが、ログも作成されず、何が問題なのかわかりません。また、処理後に元のログを削除し、送信先またはエラーのあるログ バケットに書き込みたいと考えています。
誰もそのような構成の経験がありますか? とアドバイスの言葉?
hadoop - AWS EMR を介して Kinesis ストリームで Hadoop Pig スクリプトを実行する
AWS EMR で豚のスクリプトを使用して、キネシス ストリームで一部のデータをバッチ処理しようとしています。ストリーム データをグループ化して s3 に移動するだけです。これを数時間ごとに実行しようとしています。最初は AWS Data Pipeline に非常に適しているように思えますが、kinesis チェックポイントに使用する反復回数を渡す方法がわかりません。数値をインクリメントして pig スクリプトに渡す方法はないようです。ここで例を見てきました。これには、常時稼働のクラスターと、反復回数を増やす crontab スクリプトが含まれています。不足している AWS Data Pipeline を使用してこれを達成する方法はありますか?
java - データ パイプラインの前提条件
json スクリプトで一連のアクティビティを実行しました。それに前提条件を追加する必要があります。json スクリプトで前提条件を使用する方法。
前提条件として、mysql db フィールドを確認する必要があります。'Y' としてフラグを立てると、実行を開始し、それ以外の場合は実行を停止する必要があります。