hadoop - Hadoop はどのように入力分割を実行しますか?

Question

これは、Hadoop/HDFS に関する概念的な質問です。10 億行を含むファイルがあるとします。簡単にするために、各行は、<k,v>k が先頭からの行のオフセットであり、値が行の内容である形式であると考えてみましょう。

さて、N 個の map タスクを実行したいと言った場合、フレームワークは入力ファイルを N 個の分割に分割し、その分割で各 map タスクを実行しますか? または、N 個の分割を行い、生成された分割で各マップタスクを実行するパーティショニング関数を作成する必要がありますか?

私が知りたいのは、分割が内部で行われるのか、それともデータを手動で分割する必要があるのかということだけです.

より具体的には、 map() 関数が呼び出されるたびに、そのKey key and Value valパラメーターは何ですか?

ありがとう、ディーパック

score 25 · Accepted Answer

はInputFormat分割を提供する責任があります。

一般に、n 個のノードがある場合、HDFS はこれらの n 個のノードすべてにファイルを分散します。ジョブを開始すると、デフォルトで n マッパーが存在します。Hadoop のおかげで、マシン上のマッパーは、このノードに保存されているデータの一部を処理します。これはと呼ばれていると思いますRack awareness。

簡単に言うと、HDFS にデータをアップロードし、MR ジョブを開始します。Hadoop は最適化された実行を処理します。

score 14 · Accepted Answer

ファイルは HDFS ブロックに分割され、ブロックが複製されます。Hadoop は、データの局所性の原則に基づいて分割用のノードを割り当てます。Hadoop は、ブロックが存在するノードでマッパーを実行しようとします。複製のため、同じブロックをホストする複数のノードが存在します。

ノードが使用できない場合、Hadoop は、データブロックをホストするノードに最も近いノードを選択しようとします。たとえば、同じラック内の別のノードを選択できます。ノードはさまざまな理由で使用できない場合があります。すべてのマップスロットが使用中か、ノードが単にダウンしている可能性があります。

score 10 · Accepted Answer

幸いなことに、すべてがフレームワークによって処理されます。

MapReduceデータ処理は、この入力分割の概念によって駆動されます。特定のアプリケーションに対して計算される入力分割の数によって、マッパータスクの数が決まります。

通常、マップの数は、入力ファイル内の DFS ブロックの数によって決まります。

これらの各マッパータスクは、可能な場合、入力分割が保存されているスレーブノードに割り当てられます。Resource Manager (Hadoop 1 の場合は JobTracker) は、入力分割がローカルで処理されるように最善を尽くします。

入力分割がデータノードの境界をまたいでいるためにデータの局所性を達成できない場合、一部のデータは 1 つのデータノードから別のデータノードに転送されます。

128 MB のブロックがあり、最後のレコードがブロックaに収まらず、ブロック b に広がると仮定すると、ブロック bのデータはブロック aを持つノードにコピーされます。

この図を見てください。

関連する質問を見てください

Hadoop/HDFS ファイル分割について

Hadoop プロセスレコードは、ブロック境界を越えてどのように分割されますか?

score 1 · Accepted Answer

FileInputFormatは、入力ファイルの読み取り方法とスピルアップ方法を定義する抽象クラスです。FileInputFormat は、次の機能を提供します。 1. 入力として使用するファイル/オブジェクトを選択します。 2. ファイルをタスクに分割する入力分割を定義します。

hadoopp の基本機能によると、n 個の分割がある場合、n 個のマッパーが存在します。

score 1 · Accepted Answer

Hadoop ジョブが実行されると、入力ファイルがチャンクに分割され、各分割がマッパーに割り当てられて処理されます。これは InputSplit と呼ばれます。

score 0 · Accepted Answer

FileInputFormat.addInputPath(ジョブ, 新しいパス(args[ 0])); また

conf.setInputFormat(TextInputFormat.class);

class FileInputFormat funcation addInputPath、setInputFormatは入力分割を処理します。また、このコードは作成されるマッパーの数を定義します。入力分割とマッパーの数は、入力ファイルを HDFS に保存するために使用されるブロックの数に正比例すると言えます。

元。サイズが 74 Mb の入力ファイルがある場合、このファイルは HDFS に 2 つのブロック (64 MB と 10 Mb) で保存されます。したがって、このファイルの入力分割は 2 であり、この入力ファイルを読み取るために 2 つのマッパーインスタンスが作成されます。

score 0 · Accepted Answer

ファイルをブロックに分割する別のマップ削減ジョブがあります。大きなファイルには FileInputFormat を使用し、小さなファイルには CombineFileInput Format を使用します。issplittable メソッドで、入力がブロックに分割できるかどうかを確認することもできます。その後、各ブロックはデータノードに送られ、そこでマップ削減ジョブが実行され、さらに分析が行われます。ブロックのサイズは、mapred.max.split.size パラメータで指定したサイズによって異なります。

hadoop - Hadoop はどのように入力分割を実行しますか?

10 に答える 10

Related

Reference