python - Python スクリプトを使用した AWS ETL

Question

Python を使用する AWS プラットフォームで基本的な ETL を作成しようとしています。S3 バケット (「A」と呼びましょう) には、gzip で圧縮された生のログファイルがたくさんあります。私がやりたいのは、定期的に（=データパイプライン）解凍し、すべての行の構造を再フォーマットするPythonスクリプトによって処理し、できればgzipとして別のS3バケット（「B」）に出力することですA の同じ gzip に由来する同じログファイルですが、これは必須ではありません。

私はそれを行う必要がある（標準入力から各行を受信する）必要があるPythonスクリプトを作成し、標準出力（または行が有効でない場合は標準エラー出力）に出力します。この場合、それを別のバケットに書きたいと思います、「C」)。

私はデータパイプラインをいじっていて、シェルコマンドジョブと、Python スクリプトでシーケンス処理するためのハイブジョブを実行しようとしました。EMR クラスターは作成、実行、終了し、失敗やエラーは発生しませんでしたが、ログも作成されず、何が問題なのかわかりません。また、処理後に元のログを削除し、送信先またはエラーのあるログバケットに書き込みたいと考えています。

誰もそのような構成の経験がありますか? とアドバイスの言葉？

python - Python スクリプトを使用した AWS ETL

1 に答える 1

Related

Reference