私のユースケースは、S3 アクセス ログ (これらの 18 フィールドを持つ) を定期的に処理し、RDS のテーブルにプッシュすることです。このタスクに AWS データ パイプラインを使用して毎日実行し、前日のログを処理しています。
タスクを 2 つのアクティビティに分割することにしました。 1. シェル コマンド アクティビティ: s3 アクセス ログを処理し、csv ファイルを作成します。 2. ハイブ アクティビティ: csv ファイルからデータを読み取り、RDS テーブルに挿入します。
私の入力 s3 バケットには多くのログ ファイルがあるため、ステージング中のメモリ不足エラーが原因で最初のアクティビティが失敗します。ただし、すべてのログをステージングしたくはありません。前日のログをステージングするだけで十分です。インターネットで検索しましたが、解決策はありませんでした。どうすればこれを達成できますか? 私の解決策は最適なものですか?これよりも優れたソリューションはありますか? どんな提案も役に立ちます
前もって感謝します