1

私は現在、MR-MPI (MapReduce on MPI) での機械学習アルゴリズムの実装に取り​​組んでいます。また、他の MapReduce フレームワーク、特に Hadoop について理解しようとしているので、以下が私の基本的な質問です (私は MapReduce フレームワークを初めて使用します。私の質問が意味をなさない場合はお詫びします)。

質問: MapReduce は、並列ファイル システム (GPFS)、HDFS、MPI などの多くのものの上に実装できるためです。map ステップの後に、照合操作があり、その後に縮小操作が続きます。照合操作では、ノード間で何らかのデータ移動が発生する必要があります。この点で、HDFS と GPFS と MPI のデータ移動メカニズム (ノード間) の違いを知りたいです。

適切な説明を提供していただければ幸いです。また、これらのそれぞれについて適切な参考資料を提供していただければ、さらに詳しく説明できます。

ありがとう。

4

2 に答える 2

0

パラダイムとしての MapReduce は、多くのストレージ システムに実装できます。実際、Hadoop にはいわゆる DFS (分散ファイル システム) 抽象化があり、異なるストレージ システムの統合を可能にし、それらに対して MapReduce を実行できます。たとえば、Amazon S3、ローカル ファイル システム、Opens Stack Swift、その他の統合があります。
同時に、HDFS 統合には 1 つの特別なプロパティがあります。データが存在する MR エンジン (より具体的には JobTracker) にレポートし、各 Mapper によって処理されるデータが通常一緒に配置される方法でマッピングのスマートなスケジューリングを可能にします。マッパー。その結果、マッピング フェーズ中に、MR が HDFS を介して実行される場合、データはネットワークを介して移動されません。
より一般的に言えば、Hadoop MR の考え方は、コードをデータに移動することであり、逆ではないことであり、スケーラブルな MR 実装を評価する際の重要な基準になるはずです。このシステムは、マッパーがローカル データを処理することを気にかけますか?

于 2012-07-06T06:49:17.867 に答える
0

OPには、メッセージングとファイルシステムのいくつかが混在しているため、複数の回答があります。

Hadoop/MAPI は WIPです。詳細については、こちらを参照してください。

Hadoop/GPFS はまだオープンです。

Hadoop/HDFS は、Apache Hadoopからすぐに使用できます。マッパーとリデューサー間のデータ転送には HTTP が使用されますが、理由は不明です。

于 2012-07-06T09:18:28.417 に答える