mapreduce - MapReduce で使用するには HDFS が必要ですか?

Question

私たちは、MR を使用して長時間実行されるプロセスを並列化することを検討しています。現在、すべてのデータは RDBMS に存在します。HDFS が MR の基盤となるファイルベースのデータストレージであることは理解していますが、次の点については確信が持てませんでした。

score 0 · Accepted Answer

パフォーマンスとスケーラビリティが最優先事項である場合、はい、効率的な処理のためにすべてのデータを RDBMS から HDFS に移動する必要があります。
MR ジョブは、HDFS 内外のデータを処理します。データが処理されたら、MR によって HDFS からデータをインポートするか、HDFS API を使用して他のソースにデータをインポートできます。
いいえ、ジョブが従来のソースからのデータに引き続きアクセスしている間は、MR をその並列機能に使用することはできません。MR ジョブは入力データを分割し、さまざまなマップに渡します。従来のソースでは不可能です。

2 に答える 2