mapreduce - mapreduce プログラム

Question

改行文字で区切られた段落がないという点で、1 つの .txt ファイルを考えてみましょう。

次に、各段落の単語数をカウントする必要があります。カウントされた単語をマッパーのキーと見なし、最初にすべての値に 1 を割り当てます。

そして、リデューサーでソートされた出力を提供してください。理解を深めるために完全なコードを教えてください。私は初心者な

ので、各段落の単語数の数え方をもっと明確にしてください

score 0 · Accepted Answer

カウントを行う Mapper では、map reduce テクニックを使用して達成しようとしているパフォーマンスが得られません。

map reduce の利点を実際に活用するには、段落番号 (1 番目の段落は 1、2 番目の段落は 2 など) を処理し、これらの段落を個別にカウントするために、異なるノードで実行されている異なるレデューサーに送信することを検討する必要があります (機能を利用します)。並列処理の場合)、出力を並べ替えるには、単純なプログラムに入力して並べ替えを行うか、段落数が多い場合は、これを別のマップ削減ジョブに入力します。その場合、数値の範囲を map reduce のキーとして考慮する必要があります。たとえば、1 から 10 までの数値 (前の map reduce ジョブから取得した段落内の単語の数) を 1 つのバケットに分類し、マップする必要があります。次に、個々のレデューサーがこれらの個々のバケットで作業して、それらを並べ替えることができます。

map-reduce の実装例は、http: //hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.htmlにあります。

mapreduce - mapreduce プログラム

1 に答える 1

Related

Reference