5

テキストファイルを処理する Hadoop を使ったアプリケーションを実装しようとしました.問題は入力テキストの順序を保持できないことです.ハッシュ関数を選択する方法はありますか?この問題は入力のパーティションを割り当てることで簡単に解決できます.各マッパーに送信し、パーティションをレデューサーに送信します。これは hadoop で可能ですか?

4

1 に答える 1

2

MapReduce の基本的な考え方は、物事が行われる順序は関係ないということです。したがって、次の順序を制御することはできません (また制御する必要もありません)。

  • 入力レコードはマッパーを通過します。
  • キーと関連する値はレデューサーを通過します。

制御できる唯一のことは、リデューサーで使用できるイテレーターに値が配置される順序です。これは、「二次ソート」と呼ばれる構造を使用して行われます。

この用語に対する単純な Google アクションにより、続行できるいくつかのポイントが得られました。私はこのブログ投稿が好きです:リンク

于 2012-11-18T20:12:56.573 に答える