MapReduce(複数ラウンドの可能性があります!)を次のように記述したい
1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees
続いて、
for X = 0 to 199:
    - sample N records from Large data
    - Train this tree
    - test for all test records
これは私の宿題の問題なので、私はただアイデアが必要です..!
よくわかりません
- マッパーで正確にN個のレコードをサンプリングし、200個の小さなトレーニングデータファイルを生成できますか?
 - 200個すべての最初のオプションで各レコードをテストするため に、各レデューサーがすべてのツリーに対して小さなテスト(テストファイルの一部)を実行すると思いました。2番目のオプションこれを実装する方法はわかりません。200ツリーを個別に実行し、テストファイルを分散キャッシュに入れて、各テストレコードを予測します。