MapReduce(複数ラウンドの可能性があります!)を次のように記述したい
1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees
続いて、
for X = 0 to 199:
- sample N records from Large data
- Train this tree
- test for all test records
これは私の宿題の問題なので、私はただアイデアが必要です..!
よくわかりません
- マッパーで正確にN個のレコードをサンプリングし、200個の小さなトレーニングデータファイルを生成できますか?
- 200個すべての最初のオプションで各レコードをテストするため に、各レデューサーがすべてのツリーに対して小さなテスト(テストファイルの一部)を実行すると思いました。2番目のオプションこれを実装する方法はわかりません。200ツリーを個別に実行し、テストファイルを分散キャッシュに入れて、各テストレコードを予測します。