hadoop - データ分析に使用するもの

Question

500 GB の非構造化データがあります。私がそれを使用したいのは、このデータの複数のビューを作成して、簡単かつ迅速に使用できるようにすることです。システムに入る新しいデータはすべて、必要なすべてのビューでインデックスを作成し、生の形式でどこかに保存する必要があります。これとは別に、システムにはアドホッククエリの機能が必要です。これらのクエリの実行には、かなりの時間がかかる場合があります。私は Cassandra+Hadoop+Hive、HBase、Couchbase、Riak をユースケースの候補として検討しています。

より多くのデータが入ってくるので、いつでもシステム内に最大で数 TB のデータを保持する予定です。

考え？

score 4 · Accepted Answer

この質問には、多くの重要な詳細が含まれていません。データストアを決定する際の重要な要素は、大まかに次のとおりです。

私のあなたはどのようにアクセスされますか? これは構造化されておらず、利用可能な多くのインデックスが必要であると言及してこれに触れましたが、いくつかのユースケース情報を省略しました. 情報を取得するとき、完全な記録を探しますか、それとも一度に 1 つずつ断片だけを探しますか? ドキュメントストアとキー値ストアはレコード全体を提供しますが、表形式のデータストアは行ごとに特定の情報を引き出すことができます。
ACIDスペクトルによって概説されるスペクトルのどこに位置しますか? データの長期的な可用性に関心がありますか? そうでない場合は、memcached のようなものが驚異的なパフォーマンスを提供します。ほとんどの最新の分散データストアは、この範囲でニッチを切り開いている (または、少なくとも、何らかの方法で最適化できるようにしている) ため、これが最も役立つ可能性があります。
データをどのように操作しますか? MapReduce パラダイムがデータセットと計算に対応するものである場合、HBase/Cassandra (ただし、Cassandra の MapReduce サポートはより新しいものです) と Hadoop の組み合わせをお勧めします。

提供する情報が多ければ多いほど、あなた/私たちの評価は向上します。

hadoop - データ分析に使用するもの

1 に答える 1

Related

Reference