0

私たちは、MR を使用して長時間実行されるプロセスを並列化することを検討しています。現在、すべてのデータは RDBMS に存在します。HDFS が MR の基盤となるファイルベースのデータ ストレージであることは理解していますが、次の点については確信が持てませんでした。

  • MR を使用するには、すべての RDBMS データを HDFS に移動する必要がありますか?
  • そのような移動は永続的なものですか、それとも MR プロセスの存続期間中だけの一時的なものですか?
  • ジョブが従来のソース (HDFS ではない) からのデータにアクセスしている間に、並列機能に MR を使用できますか?
4

2 に答える 2

0
  • パフォーマンスとスケーラビリティが最優先事項である場合、はい、効率的な処理のためにすべてのデータを RDBMS から HDFS に移動する必要があります。
  • MR ジョブは、HDFS 内外のデータを処理します。データが処理されたら、MR によって HDFS からデータをインポートするか、HDFS API を使用して他のソースにデータをインポートできます。
  • いいえ、ジョブが従来のソースからのデータに引き続きアクセスしている間は、MR をその並列機能に使用することはできません。MR ジョブは入力データを分割し、さまざまなマップに渡します。従来のソースでは不可能です。
于 2013-08-17T08:12:10.097 に答える