2

私は、NASA の MODIS グリッドに対応するデータのマトリックスを含む多数の大きなファイルを扱っています。グリッドは、地球の表面を 21,600 x 43,200 ピクセル配列に分割します。この特定のデータセットは、ピクセルごとに 1 つの整数値を提供します。

1 か月に 1 ファイル、約 200 個のファイルがあり、ピクセルごとに時系列を作成する必要があります。

私の質問は、これらのファイルの 1 つを取るマップ タスクの場合です。グリッドをたとえば 24,000 ピクセルのチャンクに分割し、それらを (場所と期間をキーとして) 値として出力するか、単純にすべての単一ピクセルのキー、値のペア、ピクセルを正規の単語カウントの例の単語のように扱いますか?

チャンクは正常に機能します。プログラムに任意の「チャンクサイズ」変数を導入するだけです。これで IO の時間がかなり節約できると思いますが、これは単なる感覚であり、実際の情報に基づいた意見をお待ちしています!

4

1 に答える 1

0

私が取り組んだ Hadoop プロジェクトでは、K、V ペアの数が負荷、CPU 時間、および IO に直接影響することを確認できました。チャンクの数を制限しても、状況に応じて十分なスケーラビリティを維持できる場合は、必ずそこに行こうとします.

于 2011-02-01T08:22:43.167 に答える