500 GB の非構造化データがあります。私がそれを使用したいのは、このデータの複数のビューを作成して、簡単かつ迅速に使用できるようにすることです。システムに入る新しいデータはすべて、必要なすべてのビューでインデックスを作成し、生の形式でどこかに保存する必要があります。これとは別に、システムにはアドホック クエリの機能が必要です。これらのクエリの実行には、かなりの時間がかかる場合があります。私は Cassandra+Hadoop+Hive、HBase、Couchbase、Riak をユースケースの候補として検討しています。
より多くのデータが入ってくるので、いつでもシステム内に最大で数 TB のデータを保持する予定です。
考え?