hadoop - Hadoop で圧縮データを受け入れるタスクを減らすことができます

Question

map が圧縮データと非圧縮データを受け入れて出力できることがわかります。私は Cloudera のトレーニングを受けていましたが、教師は、reduce タスクの入力はキー値の形式でなければならないため、圧縮されたデータを操作できないと述べました。

そうですか？それが正しい場合、タスクを減らすためにシャフラー/パーティショナーからバグデータを転送するときにネットワークレイテンシを処理するにはどうすればよいですか。

ご協力いただきありがとうございます。

score 0 · Accepted Answer

Mapperもちろん、が圧縮データを出力できるのであれば、は圧縮データReducerを受け入れることができます。これは両方に対して透過的であるため、出力は自動的に圧縮および圧縮解除されます。

彼/彼女は、Hadoop が圧縮された入力を解凍する必要があると言っていたに違いないと思いますReducer。

Reducers は圧縮データを出力することもでき、それは個別に制御されます。コーデックを制御できます。Mapper圧縮されたデータをへの入力として自動的に読み取ることもできます。

ただし、いくつかの問題があります。たとえば、gzip圧縮されたファイルはで分割できません。これMapperは、並列処理には適していません。ただし、bzip圧縮ファイルは場合によっては分割できます。

2 に答える 2