私は、NASA の MODIS グリッドに対応するデータのマトリックスを含む多数の大きなファイルを扱っています。グリッドは、地球の表面を 21,600 x 43,200 ピクセル配列に分割します。この特定のデータセットは、ピクセルごとに 1 つの整数値を提供します。
1 か月に 1 ファイル、約 200 個のファイルがあり、ピクセルごとに時系列を作成する必要があります。
私の質問は、これらのファイルの 1 つを取るマップ タスクの場合です。グリッドをたとえば 24,000 ピクセルのチャンクに分割し、それらを (場所と期間をキーとして) 値として出力するか、単純にすべての単一ピクセルのキー、値のペア、ピクセルを正規の単語カウントの例の単語のように扱いますか?
チャンクは正常に機能します。プログラムに任意の「チャンクサイズ」変数を導入するだけです。これで IO の時間がかなり節約できると思いますが、これは単なる感覚であり、実際の情報に基づいた意見をお待ちしています!