hadoop - データ移動 HDFS 対並列ファイルシステム対 MPI

Question

私は現在、MR-MPI (MapReduce on MPI) での機械学習アルゴリズムの実装に取り組んでいます。また、他の MapReduce フレームワーク、特に Hadoop について理解しようとしているので、以下が私の基本的な質問です (私は MapReduce フレームワークを初めて使用します。私の質問が意味をなさない場合はお詫びします)。

質問: MapReduce は、並列ファイルシステム (GPFS)、HDFS、MPI などの多くのものの上に実装できるためです。map ステップの後に、照合操作があり、その後に縮小操作が続きます。照合操作では、ノード間で何らかのデータ移動が発生する必要があります。この点で、HDFS と GPFS と MPI のデータ移動メカニズム (ノード間) の違いを知りたいです。

適切な説明を提供していただければ幸いです。また、これらのそれぞれについて適切な参考資料を提供していただければ、さらに詳しく説明できます。

ありがとう。

score 0 · Accepted Answer

パラダイムとしての MapReduce は、多くのストレージシステムに実装できます。実際、Hadoop にはいわゆる DFS (分散ファイルシステム) 抽象化があり、異なるストレージシステムの統合を可能にし、それらに対して MapReduce を実行できます。たとえば、Amazon S3、ローカルファイルシステム、Opens Stack Swift、その他の統合があります。
同時に、HDFS 統合には 1 つの特別なプロパティがあります。データが存在する MR エンジン (より具体的には JobTracker) にレポートし、各 Mapper によって処理されるデータが通常一緒に配置される方法でマッピングのスマートなスケジューリングを可能にします。マッパー。その結果、マッピングフェーズ中に、MR が HDFS を介して実行される場合、データはネットワークを介して移動されません。
より一般的に言えば、Hadoop MR の考え方は、コードをデータに移動することであり、逆ではないことであり、スケーラブルな MR 実装を評価する際の重要な基準になるはずです。このシステムは、マッパーがローカルデータを処理することを気にかけますか?

score 0 · Accepted Answer

OPには、メッセージングとファイルシステムのいくつかが混在しているため、複数の回答があります。

Hadoop/MAPI は WIPです。詳細については、こちらを参照してください。

Hadoop/GPFS はまだオープンです。

Hadoop/HDFS は、Apache Hadoopからすぐに使用できます。マッパーとリデューサー間のデータ転送には HTTP が使用されますが、理由は不明です。

hadoop - データ移動 HDFS 対 並列ファイル システム 対 MPI

2 に答える 2

Related

Reference

hadoop - データ移動 HDFS 対並列ファイルシステム対 MPI