AWS のデータ パイプラインを使用して完了しようとしている処理タスクについてお聞きしたいのですが、うまくいきません。
基本的に、2 つの MySQL データベースを表す 2 つのデータ ノードがあり、データは定期的に抽出され、S3 バケットに配置されることになっています。このコピー アクティビティは、追加されたすべての行を毎日選択して正常に動作しています。たとえば、今日 - 1 日です。
ただし、収集されたデータを CSV として含むバケットは、これらのファイルを処理して情報を集約する EMR アクティビティの入力になる必要があります。問題は、既に処理されたファイルを削除または別のバケットに移動する方法がわからないため、すべてのファイルを毎日処理する必要がないことです。
明確にするために、パイプラインから S3 バケット内の既に処理されたファイルを移動または削除する方法を探しています。それをしてもいいですか?命名規則などに基づいて、EMR アクティビティで一部のファイルのみを処理する方法はありますか?