hadoop - Hadoop にマップごとにより多くのデータを処理させる方法

Question

Hadoop がデータのサイズに対してあまりにも多くのマップタスクを作成していると思われるため、非常に進行が遅いジョブがあります。一部の Web サイトで、より少ないマップでより大きなデータのチャンクを処理するのが効率的であると読みました。これを強制する方法はありますか? ありがとう

score 1 · Accepted Answer

マップタスクの開始のオーバーヘッドは設定とハードウェアに応じて1〜3秒であるため、多くのマップは実際にパフォーマンスに深刻な影響を与える可能性があります。
ここでの主な設定は、JVMの再利用（mapred.job.reuse.jvm.num.tasks）です。-1に設定すると、おそらくパフォーマンスが大幅に向上します。
この問題の通常の根本的な原因は、多数の小さなファイルです。ここで説明します。Hadoopを使用した小さなファイルの大きなセットの処理ソリューションは、それらを一緒に編成することです。
ファイルが実際に大きいが分割可能である場合-ブロック側を増やすことができるため、分割数とその数を減らすことができます-マップの数

score 1 · Accepted Answer

2 つの可能性:

90 GB データのブロックサイズを増やします。これを 128 m 以上に設定すると、マップタスクが「より多く」機能します。
を使用してCombineFileInputFormat、適切だと思われるサイズにブロックをまとめてバッチ処理します。

最初の解決策では、データを書き直してブロックサイズを変更する必要があります。2 番目の解決策は、ジョブに埋め込むことができます。

score 0 · Accepted Answer

分割サイズを大きくするか、CombineFileInputFormat を使用して複数のファイルを 1 つの分割にまとめ、データの処理に必要なマップタスクの数を減らします。

hadoop - Hadoop にマップごとにより多くのデータを処理させる方法

3 に答える 3

Related

Reference