EMRを正しく理解していることを確認したい。私が話していることは、EMR / Hadoop で意味がありますか?
私は現在、MySQL と MongoDB の両方 (別々の EC2 インスタンス上) に保存されているデータを調べるアプリにレコメンデーション エンジンを持っており、その結果、ユーザーにコンテンツを提案することができます。これは問題なく動作しましたが、現在、スクリプトの実行に必要な間隔よりも長い時間がかかっているところまで来ています。これは明らかに問題です。
このスクリプトを EMR に移行することを検討しています。マッピング スクリプトから MongoDB と MySQL に接続できることを理解しています (つまり、S3 上のファイルである必要はありません)。私が疑問に思っているのは、MySQL / S3 でデータの調査を開始した場合、Hadoop には、スクリプトが各インスタンスで同じレコードを調査しないことを確認する方法がありますか? Hadoop の概念をまったく理解していますか? この質問が本当に初心者の場合は申し訳ありません。