hadoop - Hadoop の「スタイル」 -- 数千の (k, v) ペアに対するチャンキング

Question

私は、NASA の MODIS グリッドに対応するデータのマトリックスを含む多数の大きなファイルを扱っています。グリッドは、地球の表面を 21,600 x 43,200 ピクセル配列に分割します。この特定のデータセットは、ピクセルごとに 1 つの整数値を提供します。

1 か月に 1 ファイル、約 200 個のファイルがあり、ピクセルごとに時系列を作成する必要があります。

私の質問は、これらのファイルの 1 つを取るマップタスクの場合です。グリッドをたとえば 24,000 ピクセルのチャンクに分割し、それらを (場所と期間をキーとして) 値として出力するか、単純にすべての単一ピクセルのキー、値のペア、ピクセルを正規の単語カウントの例の単語のように扱いますか?

チャンクは正常に機能します。プログラムに任意の「チャンクサイズ」変数を導入するだけです。これで IO の時間がかなり節約できると思いますが、これは単なる感覚であり、実際の情報に基づいた意見をお待ちしています!

score 0 · Accepted Answer

私が取り組んだ Hadoop プロジェクトでは、K、V ペアの数が負荷、CPU 時間、および IO に直接影響することを確認できました。チャンクの数を制限しても、状況に応じて十分なスケーラビリティを維持できる場合は、必ずそこに行こうとします.

1 に答える 1