hadoop - Hadoop：複数のツリー（サンプリング、たとえばN、たとえばx RandomTree）を使用してビッグデータ（GB単位）をトレーニングし、テストする

Question

MapReduce（複数ラウンドの可能性があります！）を次のように記述したい

1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees

続いて、

for X = 0 to 199:
    - sample N records from Large data
    - Train this tree
    - test for all test records

これは私の宿題の問題なので、私はただアイデアが必要です..！

よくわかりません

マッパーで正確にN個のレコードをサンプリングし、200個の小さなトレーニングデータファイルを生成できますか？
200個すべての最初のオプションで各レコードをテストするために、各レデューサーがすべてのツリーに対して小さなテスト（テストファイルの一部）を実行すると思いました。2番目のオプションこれを実装する方法はわかりません。200ツリーを個別に実行し、テストファイルを分散キャッシュに入れて、各テストレコードを予測します。

score 1 · Accepted Answer

それはあなたがどの程度正式に働いているかによって異なります。

正式なマッパーは、正確に N レコードをサンプリングすることはできません。カウンターを保持できず、データの合計サイズがわからないためです。Hadoopの実用的なマッパーは確かに可能です。しかし、合計で何件のレコードを受け取ることになるかは、おそらくわかりません。

しかし、これは宿題だとあなたが言ったように、それが正確に N であることを確認する必要はないと思います。特に、サンプリングしているので、正確に N レコードを持つことの利点は何ですか?

次のことを試してください。

1 に答える 1