map が圧縮データと非圧縮データを受け入れて出力できることがわかります。私は Cloudera のトレーニングを受けていましたが、教師は、reduce タスクの入力はキー値の形式でなければならないため、圧縮されたデータを操作できないと述べました。
そうですか?それが正しい場合、タスクを減らすためにシャフラー/パーティショナーからバグ データを転送するときにネットワーク レイテンシを処理するにはどうすればよいですか。
ご協力いただきありがとうございます。
map が圧縮データと非圧縮データを受け入れて出力できることがわかります。私は Cloudera のトレーニングを受けていましたが、教師は、reduce タスクの入力はキー値の形式でなければならないため、圧縮されたデータを操作できないと述べました。
そうですか?それが正しい場合、タスクを減らすためにシャフラー/パーティショナーからバグ データを転送するときにネットワーク レイテンシを処理するにはどうすればよいですか。
ご協力いただきありがとうございます。
Mapper
もちろん、 が圧縮データを出力できるのであれば、は圧縮データReducer
を受け入れることができます。これは両方に対して透過的であるため、出力は自動的に圧縮および圧縮解除されます。
彼/彼女は、Hadoop が圧縮された入力を解凍する必要があると言っていたに違いないと思いますReducer
。
Reducer
s は圧縮データを出力することもでき、それは個別に制御されます。コーデックを制御できます。Mapper
圧縮されたデータを への入力として自動的に読み取ることもできます。
ただし、いくつかの問題があります。たとえば、gzip
圧縮されたファイルは で分割できません。これMapper
は、並列処理には適していません。ただし、bzip
圧縮ファイルは場合によっては分割できます。