Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
テキストファイルを処理する Hadoop を使ったアプリケーションを実装しようとしました.問題は入力テキストの順序を保持できないことです.ハッシュ関数を選択する方法はありますか?この問題は入力のパーティションを割り当てることで簡単に解決できます.各マッパーに送信し、パーティションをレデューサーに送信します。これは hadoop で可能ですか?
MapReduce の基本的な考え方は、物事が行われる順序は関係ないということです。したがって、次の順序を制御することはできません (また制御する必要もありません)。
制御できる唯一のことは、リデューサーで使用できるイテレーターに値が配置される順序です。これは、「二次ソート」と呼ばれる構造を使用して行われます。
この用語に対する単純な Google アクションにより、続行できるいくつかのポイントが得られました。私はこのブログ投稿が好きです:リンク