EMR 初心者向けアラート:
当社の Web サイトの使用状況データを含む大きなログがあります。顧客は、顧客 ID によって認証および識別されます。お客様の問題をトラブルシューティングしようとするときはいつでも、すべてのログを調べ (検索条件として customer_id を使用)、結果をファイルにパイプします。次に、結果ファイルを使用して問題のトラブルシューティングを行います。オンデマンドで顧客ごとのログ ファイルを作成する必要がないように、EMR を使用して顧客ごとのログ ファイルを作成することを考えていました。EMR は、すべての顧客に対して毎時間それを行ってくれます。
私たちは EMR ストリーミングを検討しており、マップ ステップ用の小さな Ruby スクリプトを作成しました。これで、キー/値 (ユーザー ID、ログデータ) の大きなリストができました。
ただし、reduce ステップで行き詰まっています。理想的には、特定の顧客のすべてのログデータを含むファイルを生成し、それを S3 バケットに入れたいと考えています。これを行う方法を教えてくれる人はいますか? EMR は私たちが使用したいテクノロジーでさえありますか?
ありがとう、ベンノ