私たちは、MR を使用して長時間実行されるプロセスを並列化することを検討しています。現在、すべてのデータは RDBMS に存在します。HDFS が MR の基盤となるファイルベースのデータ ストレージであることは理解していますが、次の点については確信が持てませんでした。
- MR を使用するには、すべての RDBMS データを HDFS に移動する必要がありますか?
- そのような移動は永続的なものですか、それとも MR プロセスの存続期間中だけの一時的なものですか?
- ジョブが従来のソース (HDFS ではない) からのデータにアクセスしている間に、並列機能に MR を使用できますか?