1

Python を使用する AWS プラットフォームで基本的な ETL を作成しようとしています。S3 バケット (「A」と呼びましょう) には、gzip で圧縮された生のログ ファイルがたくさんあります。私がやりたいのは、定期的に(=データパイプライン)解凍し、すべての行の構造を再フォーマットするPythonスクリプトによって処理し、できればgzipとして別のS3バケット(「B」)に出力することですA の同じ gzip に由来する同じログ ファイルですが、これは必須ではありません。

私はそれを行う必要がある(標準入力から各行を受信する)必要があるPythonスクリプトを作成し、標準出力(または行が有効でない場合は標準エラー出力)に出力します。この場合、それを別のバケットに書きたいと思います、「C」)。

私はデータ パイプラインをいじっていて、シェル コマンド ジョブと、Python スクリプトでシーケンス処理するためのハイブ ジョブを実行しようとしました。EMR クラスターは作成、実行、終了し、失敗やエラーは発生しませんでしたが、ログも作成されず、何が問題なのかわかりません。また、処理後に元のログを削除し、送信先またはエラーのあるログ バケットに書き込みたいと考えています。

誰もそのような構成の経験がありますか? とアドバイスの言葉?

4

1 に答える 1