私はnutchとhadoopを使っていくつかのテストを行っていますが、大量のデータが必要です。20 GBから始めて、100 GB、500 GBに増やし、最終的に1〜2TBに到達したいと思います。
問題は、この量のデータがないことです。そのため、データを生成する方法を考えています。
データ自体はどのような種類でもかまいません。1つのアイデアは、データの初期セットを取得して複製することです。ただし、互いに異なるファイルが必要なため、十分ではありません(同一のファイルは無視されます)。
もう1つのアイデアは、ダミーデータを使用してファイルを作成するプログラムを作成することです。
他のアイデアはありますか?