hadoop - Map Reduce 入力順序を維持

Question

テキストファイルを処理する Hadoop を使ったアプリケーションを実装しようとしました.問題は入力テキストの順序を保持できないことです.ハッシュ関数を選択する方法はありますか?この問題は入力のパーティションを割り当てることで簡単に解決できます.各マッパーに送信し、パーティションをレデューサーに送信します。これは hadoop で可能ですか?

score 2 · Accepted Answer

MapReduce の基本的な考え方は、物事が行われる順序は関係ないということです。したがって、次の順序を制御することはできません (また制御する必要もありません)。

入力レコードはマッパーを通過します。
キーと関連する値はレデューサーを通過します。

制御できる唯一のことは、リデューサーで使用できるイテレーターに値が配置される順序です。これは、「二次ソート」と呼ばれる構造を使用して行われます。

この用語に対する単純な Google アクションにより、続行できるいくつかのポイントが得られました。私はこのブログ投稿が好きです：リンク

hadoop - Map Reduce 入力順序を維持

1 に答える 1

Related

Reference