改行文字で区切られた段落がないという点で、1 つの .txt ファイルを考えてみましょう。
次に、各段落の単語数をカウントする必要があります。カウントされた単語をマッパーのキーと見なし、最初にすべての値に 1 を割り当てます。
そして、リデューサーでソートされた出力を提供してください。理解を深めるために完全なコードを教えてください。私は初心者な
ので、各段落の単語数の数え方をもっと明確にしてください
1 に答える
0
カウントを行う Mapper では、map reduce テクニックを使用して達成しようとしているパフォーマンスが得られません。
map reduce の利点を実際に活用するには、段落番号 (1 番目の段落は 1、2 番目の段落は 2 など) を処理し、これらの段落を個別にカウントするために、異なるノードで実行されている異なるレデューサーに送信することを検討する必要があります (機能を利用します)。並列処理の場合)、出力を並べ替えるには、単純なプログラムに入力して並べ替えを行うか、段落数が多い場合は、これを別のマップ削減ジョブに入力します。その場合、数値の範囲を map reduce のキーとして考慮する必要があります。たとえば、1 から 10 までの数値 (前の map reduce ジョブから取得した段落内の単語の数) を 1 つのバケットに分類し、マップする必要があります。次に、個々のレデューサーがこれらの個々のバケットで作業して、それらを並べ替えることができます。
map-reduce の実装例は、http: //hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.htmlにあります。
于 2012-10-15T14:08:01.377 に答える