hadoop - テスト用のランダムデータを生成する

Question

Hadoop でいくつかのテストを実行したいと考えています。大規模なクラスター (約 50 Tb) があり、いくつかのテストを実行するためのデータを生成したいと考えています。まず、構造化データ (CSV) を生成するために、ハイブのパフォーマンスをテストしたいと考えています。誰かがそれを達成するための最良の方法を教えてください。

score 4 · Accepted Answer

最初の問題は、mapreduce ジョブを偽装して、データなしでマッパーを起動することです。デフォルトでは、ブロックごとに 1 つのマップタスクが開始されるので、ごまかしましょう。

これを行うには、hdfs にいくつかの「偽のファイル」を作成することから始めます。

for i in {1..100}; do echo "hello $i" | hadoop fs -put - fakes/$i.txt ; done

これには実際にはしばらく時間がかかります...おそらく数分です。

次に、これらのファイルを「読み取る」MapReduce ジョブを作成します。Map タスクでは、実際にはそのデータを使用しないでください。そのマップ関数でランダムデータを生成し、それを書き出します ( context.write)。MapReduce ジョブが実行されると、ランダムデータをすべて並行して生成する 100 個のマップタスクが開始されます。

レデューサーの数を 0 に設定します。ここでは何も必要ありません。

hadoop - テスト用のランダム データを生成する

1 に答える 1

Related

Reference

hadoop - テスト用のランダムデータを生成する