通常、Hadoop の例では、1 つまたは複数のファイルのワード カウントを行う方法が定義されています。ワード カウントの結果は、セット全体から取得されます。
各段落のワードカウントを行い、 paragh(i)_wordcnt.txt のような個別のファイルに保存したいと考えています。
どうやってするの?(問題は、マッパーがセット全体に対して実行され、リデューサーが最終的に出力を収集することです!
特定のマークに到達したら結果を書くなどのことはできますか! ) filecontent の場合:
para1
...
para2
...
para3
...
para2がpara1のwordcountの結果を書き込むのを見て、私は好きですか?または、別の方法で各パラを別々のファイルに書き込む場合、このシーケンスのようにする方法
loop:
file(i)(parai)->Mapper->Reducer->multipleOutput(output-file(i))->writetofile(i);
i++;
goto loop;