各HadoopマッパーがM/Rジョブでデータの個別の部分を処理するようにしたいのですが、結果として多数のマッパーが存在する必要がある場合の疑似分散(単一ノード)セットアップでテストしたいと思います。より大きな入力データサイズ。現在の入力のサイズと実験しているスタンドアロンモードを考えると、1つのマップタスクしか表示できません。
私の入力はhbaseテーブルからのものであり、hbaseテーブルごとの領域の数は、テーブルのデータを処理するために使用されるマッパーの数に等しいと思いました。
したがって、多くのマッパーが入力データを処理する場合を再現するために、次のようにシェルを介してテーブルの領域を事前定義しました。
't1'、'f1'、{NUMREGIONS => 4、SPLITALGO=>'HexStringSplit'}を作成します
または「UniformSplit」をSPLITALGOとして設定しますが、マッパーが実際に指定された数の領域に増加した場合でも(それぞれのテーブルにデータをインポートした後)、すべての入力データ(このテーブルから読み取ろうとする後続のテストジョブで)は合格します1つのマッパーのみを介して-他のマッパーは入力行を処理しません。
私は疑似分散(単一ノード)セットアップに取り組んでいますが、これを解決する方法が本当にわかりません。誰かアイデアはありますか?ありがとう!