amazon-web-services - AWS datapipeline を使用して s3 アクセスログを処理する

Question

私のユースケースは、S3 アクセスログ (これらの 18 フィールドを持つ) を定期的に処理し、RDS のテーブルにプッシュすることです。このタスクに AWS データパイプラインを使用して毎日実行し、前日のログを処理しています。

タスクを 2 つのアクティビティに分割することにしました。 1. シェルコマンドアクティビティ: s3 アクセスログを処理し、csv ファイルを作成します。 2. ハイブアクティビティ: csv ファイルからデータを読み取り、RDS テーブルに挿入します。

私の入力 s3 バケットには多くのログファイルがあるため、ステージング中のメモリ不足エラーが原因で最初のアクティビティが失敗します。ただし、すべてのログをステージングしたくはありません。前日のログをステージングするだけで十分です。インターネットで検索しましたが、解決策はありませんでした。どうすればこれを達成できますか? 私の解決策は最適なものですか？これよりも優れたソリューションはありますか? どんな提案も役に立ちます

前もって感謝します

score 0 · Accepted Answer

Logstash (より正確には ELK スタック) によって既に行われているソリューションを再作成している可能性があります。

http://logstash.net/docs/1.4.2/inputs/s3

Logstash は S3 ファイルを使用できます。

これは、S3 からのアクセスログの読み取りに関するスレッドです。

https://groups.google.com/forum/#!topic/logstash-users/HqHWklNfB9A

AWS プラグインを通じて同じ機能を持つ Splunk (無料ではない) を使用しています。

score 0 · Accepted Answer

なぜアクセスログを RDS にプッシュするのですか? ELK はあなたにとって素晴らしいソリューションかもしれません。独自に構築することも、Logz.io から ELK-as-a-service を使用することもできます (私は Logz.io で働いています)。

これにより、S3 バケットを簡単に定義し、すべてのログをバケットから定期的に読み取り、ELK によって取り込まれ、事前設定されたダッシュボードでそれらを表示できます。

amazon-web-services - AWS datapipeline を使用して s3 アクセス ログを処理する

3 に答える 3

Related

Reference

amazon-web-services - AWS datapipeline を使用して s3 アクセスログを処理する