0

非常に大量のデータに対してどのようなストレージをお勧めしますか? (≈ 1 日あたり 5,000 万レコード)。Hadoop や RDBMS などのシステムのこの適切な状況は、この目的にはまだ十分ですか?

4

1 に答える 1

1

あなたが説明しているデータの量を考えると、実際にビッグデータの領域に足を踏み入れている可能性があります。あなたが提供した詳細の量に基づいて、生データを Hadoop クラスターにロードし、map/reduce ジョブを実行してそれを解析し、日付ベースのディレクトリにロードすることをお勧めします。次に、map/reduce ジョブの結果にマップされた、日付 (毎日? 毎週?) で分割された外部 Hive テーブルを定義できます。

次のステップは、レポートの複雑さと必要な応答時間によって異なります。それらを SQL で簡単に表現できる場合は、Hive テーブルでクエリを実行するだけです。より複雑な場合は、カスタムの map/reduce ジョブを作成する必要がある場合があります。多くの人が Pig を推奨していますが、私は個人的にはそのままの Java の方が快適です。

レポートの応答時間が気にならない場合は、オンデマンドで実行できます。気にしているが、数十秒または数分、結果を待つために開いている場合は、レポート結果を Hive に保存することもできます。たとえば、Web ベースまたはモバイル UI でレポートをすばやく表示したい場合は、レポート データをリレーショナル データベースに保存することをお勧めします。

于 2012-08-31T13:18:04.457 に答える