hadoop - 実際の MapReduce ジョブのデータセットサイズが非常に小さいのはなぜですか?

Question

私が読んだすべての論文は、実際の mapreduce ジョブが比較的小さなデータセットサイズで動作する傾向があることを示唆しています (ほとんどはマップのみであり、ほとんどのジョブで KB-16GB で動作する傾向があります)。本番環境で働いている人が、データセットが小さい傾向にある理由と方法について話すことができれば、私はよりよく理解できるでしょう. 小さなデータセット (<128MB) の場合、分割や生成されたマップタスクの数に何らかの影響があるため、ファイルは断片化または連続する傾向がありますか? また、hadoop で mapreduce をファイルのセクションのみで動作させるとしたら?

どんなポインタでも大歓迎です。

score 0 · Accepted Answer

通常、小さなデータを使用して、ロジック/コードが適切かどうかをすばやく確認します。適切な解決策が得られるまで、評価を何度も行う必要があります。

私は本番環境で働いており、単体テスト (MB のオーダー) には小さなデータを使用しています。また、開発側での統合テストに使用するサイズ 10 ～ 30 ギガのサンプルデータセットがあります。しかし、本番サーバーで処理される実際のデータ (テラバイトのオーダー) を考慮すると、これは小さすぎます。開発環境は、本番環境に比べて容量が少ないため、テラバイト単位のデータをスムーズに実行できるとは期待できません...さらに、リリースごとに実行する必要があるため、時間がかかります。

テクニカルペーパーへの移行: 著者は実際のデータを求めています。それも、解決しようとする特定のユースケースに傾倒しています。問題に焦点を当てた膨大なデータセット (10 ～ 100 ギガ) を取得するのは困難です。膨大なデータセットを使用した論文はほとんど見たことがありませんが、大企業に所属し、そのデータを簡単に取得できる研究者はそうでした。

hadoop - 実際の MapReduce ジョブのデータセット サイズが非常に小さいのはなぜですか?

1 に答える 1

Related

Reference

hadoop - 実際の MapReduce ジョブのデータセットサイズが非常に小さいのはなぜですか?