0

map が圧縮データと非圧縮データを受け入れて出力できることがわかります。私は Cloudera のトレーニングを受けていましたが、教師は、reduce タスクの入力はキー値の形式でなければならないため、圧縮されたデータを操作できないと述べました。

そうですか?それが正しい場合、タスクを減らすためにシャフラー/パーティショナーからバグ データを転送するときにネットワーク レイテンシを処理するにはどうすればよいですか。

ご協力いただきありがとうございます。

4

2 に答える 2

0

Mapperもちろん、 が圧縮データを出力できるのであれば、は圧縮データReducerを受け入れることができます。これは両方に対して透過的であるため、出力は自動的に圧縮および圧縮解除されます。

彼/彼女は、Hadoop が圧縮された入力を解凍する必要があると言っていたに違いないと思いますReducer

Reducers は圧縮データを出力することもでき、それは個別に制御されます。コーデックを制御できます。Mapper圧縮されたデータを への入力として自動的に読み取ることもできます。

ただし、いくつかの問題があります。たとえば、gzip圧縮されたファイルは で分割できません。これMapperは、並列処理には適していません。ただし、bzip圧縮ファイルは場合によっては分割できます。

于 2013-08-29T20:39:53.417 に答える